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环境 统计 分 析 是 环境 科学 与 环境 工程 的 基础 学 科 之 一 ， 
是 一 门 对 环境 系统 不 确定 性 问题 进行 数据 处 理 、 模 型 构建 
和 分 析 的 学 科 。 环 境 系 统 ， 系 指 地 球 表 面包 括 非 生物 、 生 
物 的 各 种 环境 因素 及 其 相互 关系 的 总 和 ， 是 一 个 具有 时 、 
空 、 量 、 序 变化 的 复杂 巨 系 统 。 受 人 类 活动 、 天 文 、 气 候 
和 气象 等 众多 因素 的 影响 ， 环 境 系统 中 存在 许多 不 确定 性 
现象 ， 并 且 有 大 量 的 数据 需要 进行 统计 分 析 和 处 理 。 环 境 
的 理论 和 实践 对 统计 信息 的 需求 急剧 增加 ， 对 统计 分 析 的 
理论 和 方法 提出 了 更 高 的 要 求 。 在 自然 、 社 会 与 环境 关系 
的 基础 上 ， 用 统计 方法 对 环境 问题 子 以 量化 描述 和 分 析 已 
成 为 环境 研究 的 迫切 需要 。 环 境 统计 学 的 产生 与 发 展 使 人 
们 能 够 利用 数理 统计 方法 处 理 或 解决 环境 中 的 不 确定 性 问 
题 ， 使 其 定量 化 ， 其 中 包括 寻找 变量 之 间 的 定量 关系 、 从 
数据 中 发 现 环境 趋势 、 探 索 环境 系统 变化 规律 。 现 代 环 境 
统计 学 一 个 很 重要 的 标志 就 是 模型 技术 的 运用 及 量化 分 析 。 

全 书 分 三 大 部 分 ， 共 10 章 。 其 中 ， 第 1 章 属 于 基础 篇 ， 
简要 地 介绍 了 环境 统计 分 析 的 概率 统计 基础 知识 ; 第 2~9 
章 属 于 模型 篇 ， 阐 述 了 环境 一 元 线性 回归 分 析 、 环 境 多 元 
线性 回归 分 析 、 环 境 系 统 聚 类 分 析 、 环 境 模 糊 聚 类 分 析 、 
环境 判别 分 析 、 环 境 主 成 分 分 析 、 环 境 因子 分 析 、 人 工 神 
经 网 络 等 方法 、 模 型 的 原理 ， 并 给 出 了 分 析 案 例 ; 第 10 章 
属于 空间 分 析 篇 ， 介 绍 了 环境 空间 统计 分 析 的 基本 原理 ， 


环境 统计 分 析 


并 给 出 了 应 用 实例 。 全 书 的 大 多 数 例子 都 是 用 目前 常用 的 统计 分 析 语言 Matlab 
编写 实现 的 ， 是 理论 联系 实际 的 经 验 总 结 ， 具 有 可 操作 性 。 本 书 适 于 做 高 等 院 校 
环境 科学 与 环境 工程 专业 的 高 年 级 本 科 生 和 研究 生 教材 ， 对 环境 科学 与 环境 工 
程 、 生 态 学 、 资 源 与 管理 、 应 用 数学 、 地 理科 学 等 相关 领域 的 学 者 和 科研 人 员 也 
有 重要 的 参考 价值 。 

本 书 第 1 章 由 杨 晓 华 、 曾 勇 执笔 ， 第 2 一 9 章 由 杨 晓 华 执笔 ,第 10 章 由 刘 瑞 
民 执 笔 ， 全 书 由 杨 晓 华 统 稿 。 另 外 ， 尹 心安 参加 了 第 1 章 的 编写 工作 ; 王 伟 参 加 
了 第 3 章 、 第 4 章 、 第 10 章 的 编写 工作 ; 陈强 、 胡 晓 雪 参加 了 第 5 章 、 第 6 章 
的 编写 工作 ; 余 教 先 参 加 了 第 1 章 、 第 3 章 、 第 6 章 、 第 8 章 的 编写 工作 。2004 
级 、2005 级 的 博士 研究 生 、2005 级 的 硕士 研究 生 也 提供 了 部 分 例题 和 习题 。 另 
外 ， 习 题 答案 均 是 用 Matlab 语言 计算 完成 。 | 

在 本 书 的 编写 和 出 版 过 程 中 ， 北 京师 范 大 学 环境 学 院 院 长 杨 志 峰 教授 ， 副 院 
长 沈 珍 瑶 、 刘 静 玲 教授 ， 还 有 牛 军 峰 、 和 孙涛 副教授 以 及 北京 师范 大 学 出 版 社 的 胡 
延 兰 、 毛 佳 等 同志 对 本 书 提出 了 许多 宝贵 意见 。 书 中 若干 例题 选 自 所 列 参考 文 
献 ， 在 此 一 并 表示 感谢 。 由 于 我 们 的 水 平 有 限 ， 书 中 错误 在 所 难免 ， 欢 迎 读者 批 
评 指正 。 

衷心 感谢 北京 师范 大 学 出 版 社 给予 的 大 力 支持 ! 

本 书 的 完成 得 到 国家 重点 基础 研究 发 展 规划 项 目 (G2003CB415204) 的 资 
助 ， 在 此 表示 衷心 的 感谢 ! 
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本 书 阅 述 了 常用 的 环境 统计 分 析 方 法 ， 并 给 出 了 分 析 
案例 。 首 先 简明 扼要 地 介绍 了 环境 统计 分 析 的 概率 统计 基 
础 知识 ， 又 重点 阐述 了 环境 一 元 线性 回归 分 析 、 环 境 多 元 
线性 回归 分 析 、 环 境 系 统 聚 类 分 析 、 环 境 模糊 聚 类 分 析 、 
环境 判别 分 析 、 环 境 主 成 分 分 析 和 环境 因子 分 析 这 些 常 用 
的 环境 统计 分 析 模 型 ; 另外 还 给 出 了 现代 环境 数据 处 理 常 
用 的 人 工 神经 网 络 方法 和 空间 统计 分 析 方 法 。 对 每 一 种 方 
法 ， 本 书 除 了 讲 明基 本 原理 外 ， 还 给 出 了 大 量 的 计算 分 析 
例题 和 案例 。 本 书 的 部 分 例子 是 用 目前 实用 的 统计 分 析 语 
言 Matlab 编写 实现 的 ， 是 理论 联系 实际 的 经 验 总 结 ， 具 有 
实用 性 。 本 书 适 于 做 高 等 院 校 环境 科学 与 环境 工程 专业 的 
高 年 级 本 科 生 和 研究 生 教 材 ， 对 环境 科学 与 环境 工程 、 生 
态 学、 资源 与 管理 、 应 用 数学 、 地 理科 学 等 相关 领域 的 学 
者 和 科研 人 员 也 有 重要 的 参考 价值 。 
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第 1 章 概率 统计 基础 


第 1 章 概率 统计 基础 


环境 的 理论 和 实践 对 统计 信息 的 需求 急剧 增加 ， 对 统计 分 析 的 理论 和 方法 提 
出 了 更 高 的 要 求 。 在 自然 、 社 会 与 环境 关系 的 基础 上 ， 用 统计 方法 对 环境 问题 巴 
以 量化 分 析 已 成 为 环境 科学 工作 者 的 迫切 需要 。 环 境 统计 学 的 产生 与 发 展 使 人 们 
能 够 利用 数理 统计 方法 处 理 或 解决 环境 中 的 不 确定 性 问题 ， 使 其 定量 化 ， 其 中 包 
括 寻 找 变 量 之 间 的 定量 关系 、 从 数据 中 发 现 环境 趋势 、 探 索 环境 系统 变化 规律 。 
为 了 能 深刻 理解 和 分 析 环境 数据 的 数量 特征 和 内 在 关系 ， 需 要 我 们 首先 掌握 数理 
统计 的 基础 知识 。 本 章 重 点 病 述 环境 统计 分 析 的 概率 统计 基础 。 

本 章 的 主要 内 容 是 : 

为” 四 种 重要 的 概率 分 布 ; 

@@ ”随机 向 量 的 数字 特征 ; 

@@ 参数 估计 ; 

图 ”参数 假设 检验 ; 

图 方差 分 析 与 试验 设计 初步 


在 环境 科学 中 ， 弄 清 统 计 分 析 对 象 的 理论 分 布 是 关键 的 一 环 。 土 壤 中 的 某 些 
污染 物 、 重 金属 的 分 布 ， 大 气 中 若干 种 微粒 的 浓度 分 布 、 监 测 值 的 误差 分 布 等 均 
服从 正 态 分 布 或 接近 正 态 分 布 或 取 对 数 后 服从 正 态 分 布 。x: 分 布 、: 分 布 、 下 分 
布 是 统计 推断 中 经 常 碰 到 的 另外 三 种 分 布 。 研 究 污染 物 在 环境 中 的 分 布 规律 已 是 
当前 环境 科学 研究 中 重要 的 课题 之 一 。 














1.1.1 正 志 分 布 


市 场 上 的 食品 很 多 是 1 kg 袋 装 ， 袋 上 标 有 “ 兆 含 量 1 kg” 的 字样 。 但 当 用 
稍微 精确 一 些 的 天 平 称 那 些 食品 的 重量 时 ,会 发 现 有 些 可 能 会 重 些 ， 有 些 可 能 会 
轻 些 , 但 都 在 1 kg 左右 。 其中， 多 数 离 1 kg 不 远 ， 离 1 kg 越 近 就 越 可 能 出 现 ， 
离 1 kg 越 远 就 越 不 可 能 。 一 般 认为 这 种 重量 分 布 近 似 地 服从 正 态 分 布 (normal 
distribution) 。 近 似 地 服从 正 态 分 布 的 变量 很 常见 ， 如 实验 误差 、 商 品 的 重量 或 
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尺寸 、 某 年 龄 人 群 的 身高 和 体重 等 。 在 一 定 条 件 下 ,许多 不 是 正 态 分 布 的 样本 均 
值 在 样本 量 很 大 时 ， 也 可 用 正 态 分 布 来 近似 。 





若 随机 变量 X 的 分 布 密度 为 : 
foe 3 (—oo<z<+o0, o>0) Coy 


则 称 X 服从 正 态 分 布 N (7 天 )， 简 记 为 X 一 N (CA 到 )。 其 中 ，/7 为 均值 ，c 
为 标准 差 ， 为 方差 〈 标 准 差 的 平方 ) 。 

正 态 分 布 的 密度 曲线 是 一 个 对 称 的 、 呈 钟 形 的 曲线 (最 高 点 在 均值 处 )( 图 1 - 
1)。 正 态 分 布 是 一 族 分 布 ， 各 种 正 态 分 布 根据 它们 的 均值 和 标准 差 不 同 而 有 区 
别 。 标 准 差 为 1 的 正 态 分 布 N(0，1) 称 为 标准 正 态 分 布 (standard normal distri- 
bution) 。 标 准 正 态 分 布 的 密度 函数 与 分 布 函数 记 为 : 








CD=- (一 co<z< 十 co) (1.2) 
nt 
99D= 志 | cy (一 co<z<+eo) (1.3) 





图 1-1 两 条 正 态 分 布 的 密度 曲线 图 
(左边 是 N( 一 2，0.5) 分 布 ， 右 边 是 N(0，1) 分 布 ) 


在 实际 的 生活 中 ， 我 们 经 常会 因为 标准 正 态 分 布 的 优异 特性 而 需要 将 一 般 的 





正 态 分 布 标准 化 ， 下 面 简单 介绍 一 下 正 态 分 布 的 标准 化 过 程 。 
设 X~N(y，o*)， 作 简单 变换 ( 减 去 其 均值 ,再 除 以 标准 差 o)， 则 很 容易 得 


到 随机 变量 Y= ~Noo, I 
因为 : 





本 
EW=E( =*)=3[ER A=0 
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DOD=D( 关 2)= 二 DCO=1 


这 样 就 将 一 个 普通 的 正 态 分 布 变 成 了 一 个 标准 的 正 态 分 布 。 
标准 正 态 分 布 中 还 有 一 个 十 分 重要 的 概念 就 是 分 位 点 。 为 了 便于 今后 应 用 ， 
对 于 标准 正 态 随 机 变量 ， 本 书 引入 上 侧 分 位 点 的 定义 ( 盛 聚 ，1998) 。 
设 X 一 N(0，1)， 若 = 满足 条 件 
P(X>z)=a (0<a<!l) 
则 称 z, 为 标准 正 态 分 布 的 上 侧 a 分 位 点 ， 如 图 1- 2 所 示 。 





ol 六 
图 1- 2 标准 正 态 分 布 的 上 侧 a 分 位 点 z。 


例如 ， 查 附 表 1 可 知 ， zo.0 一 2.326 348，z0.0s 二 1. 644 854，z0.10 二 1. 281 552， 
zo.154 =1. 019 428。 

例 1.1 已 知 X 一 Ne，o5， 求 X 在 区 间 (w 一 如 ，p 十 ic) 的 概率 ， 这 里 一 
Der se 

解 Ya, b,，0<a<b， 有 : 


. 
Pla<X<=[ 汪 
® Veno 





EB dr 








i=2—4 
Ss .1 = 也 一 
局 yp 6 人 (一 4 人) 一 2( 呈 ) 
这 样 在 区 间 (j 一 kg，jpx 十 ko) 的 概率 (k= 二 1，2，3) 为 : 
Py—o<X<pto)=8(1)—8(—1)=0. 682 6 
Plu—2o<X<pt20)=B(2)—@(—2)=0. 954 4 
P(p 一 3o<X<p 十 3o) 一 G(3) 一 G( 一 3) 一 0. 997 4 
其 中 ,@( 一 z) 二 1 一 B(xz)。 由 此 我 们 可 以 知道 ， 属 于 正 态 分 布 的 随机 变量 羡 之 
值 ， 几 乎 都 落 在 (一 3z，/p 十 3c) 区 间 里 ， 落 在 该 区 间 外 的 机 会 极 少 。 
例 1.2 某 地 水 体 COD 浓度 X~N(5，22)， 求 COD 浓度 落 在 区 间 (4，8) 的 








概率 。 
解 /一 5，co 一 2 
P(U<X<9)=5(2“) 一 (全 多 
=e( 呈 5)-e( 与 5) 
一 6(1.5) 一 6( 一 0.5) 
一 0.933 2 一 0.308 5 
=0.6247 
2 分 布 


一 个 由 正 态 变量 导出 的 分 布 是 x 分 布 (chi-square distribution) 。 该 分 布 在 一 
些 检验 中 会 用 到 。n 个 独立 标准 正 态 变量 的 平方 和 称 为 有 ? 个 自由 度 的 X 分布 ， 
记 为 她 Ca。 入 源太 二 一 族 分 布 ， 成 员 由 自由 度 区 分 。 由 于 x? 分 布 变量 为 正 态 
变量 的 平方 和 ， 因 此 它 不 会 取 负 值 。 

设 X，X,，…，X, 是 取 自 标准 正 态 总 体 N(0，1) 的 容量 为 的 样本 ,那么 


ha 六 站 即 为 由 正 态 分 布 导出 的 自由 度 为 4 的 尖 (m) 分 布 。 所谓 自 由 度 ， 就 是 指 
可 以 自由 取 值 的 数据 的 个 数 ， 或 者 指 不 受 任何 约束 、 可 以 自由 变动 的 变量 的 个 数 。 
对 于 任意 一 个 六 (mw) 分 布 ， 它 的 概率 密度 函数 为 : 
1 0) 
P(z)=124T( 名 ) (1.4) 
0 (z<0) 
记 为 必 一 六 (1D)， 式 中 尺 为 正 整 数 , 工 (如) 为 函数 值 , FTCe)= | zierdz 
(z>0)。 

同 正 态 分 布 类 似 ， 对 于 x 分 布 也 有 上 侧 a 分 位 点 。 如果 P(x 二 x (2)) 二 a， 
则 称 愉 (1) 为 上 侧 a 分 位 点 。 对 于 不 同 的 a,，x， 上 侧 a 分 位 点 的 值 已 制 成 表格 附 
表 3)， 可 以 查 到 。 例如 对 于 a 二 0.050,n 二 9， 查 得 驮 几 (9) 王 16. 919。 但 大 部 分 书 
只 给 出 到 n=45 的 上 侧 a 分 位 点 的 值 。 费 歇 尔 (R. A. Fisher) 曾 证 明 ， 当 充分 大 时 ， 
近似 有 











ETE tm (1.5) 
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其 中 ,z, 为 标准 正 态 分 布 的 上 侧 a 分 位 点 。 利 用 式 (1.5) 可 以 求 当 nw 二 45 时 ， 
习 (D 分 布 的 上 侧 a 分 位 点 的 近似 值 。 
例如 ， 查 附 表 1 并 计算 ， 可 得 : 


从 oo(100) 二 (2， 326 348 十 V199):<*135. 023 1 














! 
: 

0 2 4 6 8 10 
3 自由 度 分 别 为 2,3,5 的 分 布 密度 曲线 图 


1.1.3 ft 分 布 


设 X 一 N(0，1) ，Y 一 驴 (z)， 并 且 X, Y 独立 ， 则 随机 变量 
人 
VY 
服从 自由 度 为 nn 的: 分 布 (tdistribution 或 students t)， 记 为 1~1(n)。 
对 于 任意 一 个 :() 分 布 ， 它 的 概率 密度 函数 为 : 
A 
P(w)= 一 一 (1+ 三 ) -co<z<+eo) (1.6) 
T(g) var 
式 中 ,nn 为 正 整数 。 

不 同 的 样本 量 通 过 标准 化 所 产生 的 :分布 也 不 同 ， 这 样 就 形成 一 族 分 布 。t 
分 布 的 分 布 曲线 关于 工 一 0 对 称 ， 它 的 密度 曲线 看 上 去 有 些 像 标 准 正 态 分 布 ， 但 
是 中 间 瘦 一 些 ， 而 且 尾 巴 长 一 些 。 当 自由 度 无 限 增 大 时 ，: 分 布 将 趋 近 于 标准 
正 态 分 布 N(0,，1)。 

同样 ， 类 似 于 前 面 的 两 个 分 布 ，t 分布 也 有 上 侧 a 分 位 点 的 概念 。 




















环境 统计 分 析 


如 果 P(i>i Cm)) 二 a， 则 称 4 () 为 t+ 分布 的 上 侧 a 分 位 点 ; s(n) 二 
一 1,(n)，t 分 布 的 上 侧 a 分 位 点 ， 当 二 45 时 ， 可 以 用 正 态 近 似 : 
t, (nz, (n) 


对 于 常用 的 a 值 ， 这 样 的 近似 值 相 对 误差 最 多 不 超过 1. 3%。 











图 1-4 标准 正 态 分 布 和 !(1) 分 布 的 密度 曲线 图 


1.1.4 下 分 布 


设 X~ 必 Cm)，Y~ 交 (ns)， 且 X,Y 相互 独立 ,那么 一 革 虹 称 为 自由 度 
为 0u， ms) 的 下 分 布 ， mn 和 分 别称 为 第 一 自由 度 和 第 二 自由 度 ， 通 常 记 为 
F~F(m, nm)。 

分 布 变 量 为 两 个 x 分 布 变量 〈 在 除 以 它们 各 自 自由 度 之 后 ) 的 比 ! 第 一 
自由 度 等 于 在 分 子 上 的 闪 分 布 的 自由 度 ,第 二 自由 度 等 于 在 分 母 上 的 分 布 的 
自由 度 。 

对 于 任意 一 个 Fom ， 疡 ) 分 布 ， 它 的 概率 密度 函数 为 





0 (xr<0) 
下 分 布 的 上 侧 a 分 位 点 定义 为 : 如 果 P(F>F,(m， zw)) 二 a， 则 称 FG，nz) 
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为 分 布 的 上 侧 a 分 位 点 。 实际 上 ， 对 于 下 分 布 还 有 一 个 非常 重要 的 性 质 ， 即 : 


Ds 1 
F,(m, Wo 有 (1.8) 


一 般 情况 下 ,下 分 布 表 只 给 出 了 Fm ，n) 的 值 ， 而 没有 给 出 Fi (n,m) 
的 值 。 此 时 ， 只 要 利用 上 述 公式 , 就 可 以 通过 转换 由 F, (mm， ns) 求 出 
Fl-,(ns, m), 











0 2 4 6 8 
图 1-5 自由 度 为 (3，20) 和 (50，20) 的 下 分 布 密度 曲线 图 


现代 统计 学 以 随机 变量 为 研究 对 象 ， 现 代 统计 分 析 方 法 更 涉及 随机 向 量 ， 下 
面 先 对 概率 论 中 随机 向 量 的 主要 数字 特征 作 一 介绍 。 


1.2.1 数学 期 望 


“平均 数 ”是 我 们 日 常生 活 中 使 用 最 多 的 一 个 数字 特征 ， 如 平均 身高 、 平 均 
浓度 、 平 均 产 量 、 平 均 产 值 、 平 均 成 绩 等 。 它 简洁 明了 地 指出 所 研究 对 象 的 位 置 
特征 ， 对 评判 事物 、 作 出 决策 都 有 重要 的 作用 。 而 数学 期 望 实际 上 是 以 概率 为 权 
重 的 加 权 平 均值 。 


1.2.1.1 离散 随机 变量 的 数学 期 望 
在 概率 统计 中 ， 设 X 为 离散 型 随机 变量 ， 它 取得 的 一 切 可 能 值 为 x (二 1， 
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2，…), 对 应 的 概率 为 POX 二 z) 二 pr Ck 二 1，2，…)， 如 果 沁 zipr 绝对 收敛 ， 
则 称 > zxps 为 随机 变量 X 的 数学 期 望 ， 记 作 ECX)， 即 : 


EC(X)= 六 zip: (k=1, 2, *) (1.9) 


例 1.3 甲 、 乙 两 条 河流 水 质 监测 项 目 DO( 溶 解 氧 ) 的 概率 分 布 如 表 1.1 所 
示 ， 试问 哪 条 河流 污染 更 重 ? 











表 1.1 甲 、 乙 两 条 河流 DO 的 概率 分 布 表 

河流 甲 河流 乙 

X| 0 1 2 3 Y|" 1 2 3 
中 | 723 0.3 0.2 0.2 P| 0.3 0.5 0.2 0.0 
解 


EC(X)=0X0. 3 二 1X0.3+2X0.2+3X0.2=1.3 
E(Y)=0X0.3+1X0.5+2X0.2+3X0.0=0.9 
上 面 结果 表明 ， 河 流 乙 污染 更 重 。 


1.2.1.2 连续 随机 变量 的 数学 期 望 


设 XX 是 一 个 连续 型 的 随机 变量 ,密度 函数 为 /Cz)， 当 | |z|f(z)dz<oo 
时 ， 则 称 X 的 数学 期 望 存在 ， 且 
E(X)= 恬 zf(z)dr (1.10) 
例 1.4 设 服 从 拉 普 拉 斯 分 布 的 随机 变量 X 的 概率 密度 为 
fw=He™ (oo<z<too) 
求 ECX)。 
解 ECQO= | zcoDdz= [= 


因为 ” 奇 函数 在 对 称 区 间 的 积分 为 0 
所 以 ECX)=0 


1.2.1.3 随机 变量 函数 的 数学 期 望 
设 X 为 离散 型 随机 变量 ， 它 取得 的 一 切 可 能 值 为 zx 一 1，2，…)， 对 应 的 


了 ed 














第 1 章 概率 统计 基础 


概率 为 P(X 二 zx) 二 p(k 二 1，2，*…)， 对 于 六 的 函数 Y==g(X)， 如 果 沁 lg 
| 
《ze) ps 收 合 ， 则 Y 的 数学 期 望 为 : 
E(Y)=E[g(X)]= by g(xe) pe ci 
[et 


同 理 ， 设 X 是 一 个 连续 的 随机 变量 ， 密 度 函 数 为 f(z)， 则 对 于 任意 一 个 关 
于 义 的 函数 Y 二 g(X)， 则 YY 的 数学 期 望 定义 为 : 


E(Y)=E[g(X)]= i gz)f (rdr (1, 12) 


例 1.5 设 随机 变量 X 的 概率 分 布 如 表 1.2 所 示 , 且 Y 二 2X 十 1,Y, 二 X*， 
求 E(Y1) 和 E(Y,)。 


表 1.2 随机 变量 X 的 概率 分 布 表 
X = 一 0 1 





Pp, 0.1 0.3 0.4 0.2 


解 方法 一 : 先 求 Y 和 YY; 的 概率 分 布 ( 表 1.3), 再 求 E(Y1) 和 EC(Y;)。 





表 1.3 随机 变量 Y， 和 Y: 的 概率 分 布 表 
外 Ce i 1 3 六 0 1 4 
0.1 0.3 0.4 0.2 汇 0.4 0.5 0.1 





由 公式 (1.9) 有 : 
E(Y1)=(—3)X0.1+(—1)X0.3+1X0.4+3X0.2=0.4 
E(Y;)=0X0.4+1X0.5+4X0.1=0.9 

方法 二 : 直接 由 公式 (1.11) 求 EC(Yi)，E(CY:) 。 

下 (Yi) 一 尼 (2X 十 1) 王 [2X( 一 2) 十 I]X0.1 十 [2X( 一 1) 十 1]X0. 3 十 
[2X0+1]X0.4+[2X1+13X0.2=0.4 
E(Y:)=E(X’)=(—2)’ X0.1+(—1)*X0;3+0*X0.4+EX0.2=0.9 


1.2.1.4 性 质 


数学 期 望 具有 以 下 几 个 性 质 (a，5，c 均 为 常数 ): 
(DECc) 一 c; 
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(DE(aX)=aE(X); 
(3)E(aX+b)=aE(X)+b。 


1.2.2 方差 和 均 方差 


1.2.2.1 方差 和 均 方差 的 定义 


数学 期 望 描述 随机 变量 可 能 值 的 集中 位 置 ， 在 实用 上 还 需要 了 解 随机 变量 可 
能 值 离散 程度 ， 这 就 需要 引入 一 个 新 的 特征 数 一 方差 。 我 们 称 随机 变量 X 与 
其 平均 值 差 的 平方 的 期 望 值 称 为 随机 变量 X 的 方差 ， 记 作 D(X)， 即 : 

D(X)=E[LX—E(X)] (1.13) 
随机 变量 方差 的 平方 根 称 为 均 方差 或 标准 差 ， 记 作 c 一 VD(X) 。 

由 方差 的 定义 可 知 ， 方 差 是 一 个 非 负数 ， 方 差 的 大 小 刻画 了 随机 变量 取 值 的 
分 散 程度 。 


1.2.2.2 离散 型 随机 变量 的 方差 


设 X 为 离散 型 随机 变量 ， 它 的 概率 分 布 为 PCX 一 zi) 一 加 (一 1，2，…)， 
则 X 的 方差 表达 式 为 : 


D(X)= 2) [x —ECX) Jp, (1.14) 
例 1.6 计算 例 1.3 中 的 河流 水 质 指数 溶解 氧 的 方差 。 
解 由于: 

D(X)=ELX—E(X)] 
=E{X*:—2XE(X)+[E(OF} 
=E(X:)—2E(X)E(X)+[E(X)J 
=E(X:)=[ECX)J 

因此 : 


E(X’)=0*X0. 3+1*X0. 3+2*X0. 2+3*X0.2=2.9 
D(X)=E(X’)—[E(X) T=2.9—1.3:=1.21 
E(Y*)=0:X0.3+1:X0.5+2* X0.2+3*X0.0=1.3 
DCY) 一 E(Y?) 一 [LE(Y) 卫 一 1. 3 一 0. 9: 一 0. 49 


1.2.2.3 连续 型 随机 变量 的 方差 
设 X 为 连续 型 随机 变量 , 它 的 概率 密度 函数 为 P(z)， 则 X 的 方差 表达 式 为 : 
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DOO= | [z 一 ECO]PCz)dz .15) 
例 1.7 XX 服从 参数 为 4 的 指数 分 布 ， 即 X 的 概率 密度 函数 为 : 
peo= 人 ee (z>0) 
0 (<0) 
求 D(X)。 
解 
E(x)=| zp)dr= 小 hazerwdz 
| 
D(X) 一 ECX2) 一 LE(X) 了 一 =-() 一 十 
1.2.2.4 性 质 


方差 具有 以 下 几 个 性 质 (a，b，c 均 为 常数 ) : 

(DVD)=0; 

(2 D(aX)=a’ D(X); 

(3)D(aX+b)=a DX); 

(4)D(X)==0 的 充 要 条 件 是 存在 常数 c， 使 得 PIX=c) 三 1。 
此 外 ,方差 还 有 一 个 重要 的 等 式 : ee ge 


1.2.3 原点 矩 和 中 心 矩 








除了 数学 期 望 和 方差 外 ,在 研究 随机 变量 时 还 经 常用 到 随机 变量 的 各 阶 
和 矩 一 原点 矩 和 中 心 矩 。 例 如 在 定义 了 随机 变量 的 数学 期 望 、 方 差 这 些 数字 特征 
之 后 ， 如 果 记 数学 期 望 为 ECX)， 则 方差 为 : 
D(X)=E(X’)—[LE(X)J 
对 于 离散 型 随机 变量 和 连续 型 随机 变量 来 说 ,分 别 有 如 下 的 公式 : 


EOO= Dpit EO)= 站 =rcpdz (1.16) 


EC(X*)= Dp Ex)=[ 之 /Godr (1.17) 


这 些 计算 式 与 物理 学 中 药力 矩 和 名 性 力 的 计算 式 相 也 。 借用 物理 学 中 “和 矩 ” 
的 名 字 ，E(CX) 和 ECX2) 分 别称 为 一 阶 矩 和 二 阶 矩 。 对 任意 正 整数 上 ， 可 以 自然 
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地 定义 E(X*) 为 随机 变量 X 的 & 阶 矩 。 
注意 到 方差 DCX) 王 ELX 一 E(X) 卫 ， 当 然 也 可 以 对 任意 的 正 整数 和， 考虑 
E [X 一 ECX) 二 (1.18) 
它 也 是 一 种 阶 矩 。 实 际 上 ，E(X) 是 XX 的 一 个 中 心 ， 因 而 常常 把 E[X 一 
EC(X) 了 称 为 随机 变量 X 的 k 阶 中 心 矩 。 而 E(X*) 是 对 原点 的 & 阶 矩 ， 也 就 称 之 
为 k 阶 原点 矩 。 


1.2.4 变异 系数 


如 果 两 组 数据 的 计量 单位 相同 ， 并 且 均 值 一 样 ， 可 以 利用 标准 差 来 比较 两 组 
数据 的 离散 程度 。 但 当 两 组 数据 的 计量 单位 不 同 或 者 均值 不 同时 ， 就 不 能 直接 比 
较 两 组 数据 的 标准 差 来 分 析 两 组 数据 的 离散 程度 。 由 此 引入 变异 系数 C,， 它 的 
定义 如 下 : 

设 随机 变量 X 的 标准 差 为 x， 数学 期 望 为 E(X)， 则 标准 差 与 数学 期 望 的 比 
值 称 为 变异 系数 ， 记 为 : 

C 一 FE (1.19) 

例如 下 面 两 组 数据 (4，5，6，7，8) 与 (40，50，60，70，80) 的 标准 差分 别 
是 1.58 和 15.8， 如 果 仅 从 标准 差 来 看 显然 第 二 组 数据 分 散 程度 较 大 。 但 是 由 于 
两 组 数据 的 均值 不 同 ， 分 别 为 6 和 60， 单 纯 由 标准 差 来 判断 数据 的 分 散 程度 就 不 
合适 。 实 际 上 ， 上 述 两 组 数据 的 变异 系数 ， 均 为 : C.=0. 26。 因 此 ， 两 组 数据 的 
分 散 程度 是 相同 的 。 


1.2.5 协 方差 阵 和 自 协 方差 阵 








对 于 二 维 随机 向 量 (X，Y)， 它 的 一 个 重要 的 数字 特征 是 协 方差 若 X 与 了 

的 1 二 1 阶 混合 中 心 矩 存在 ， 记 为 CovCX，Y) ， 即 ; 
Cov(X,Y)=E{[X—E(X)]J[Y—EC(Y)]} (1.20) 
这 里 ， 如 果 随 机 变量 X 和 随机 变量 了 为 同一 个 变量 ， 则 
Cov(X,X)=E{[X—E(X)J[X—E(X)]}=E[X—E(X) T=D(X) 

设 X=(X1，X2，…，X,) 和 Y= 二 (Yi ，Y;，…，Y,) 分 别 为 n 维和 pp 维 的 随 
机 向 量 ， 它 们 之 间 的 协 方差 阵 定义 为 一 个 nXpp 矩阵， 其 元 素 为 Cov(Xi,Y)) 
(= 27 0 2 
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Cou Xi) Co I i Co ry 
CovR YY Co YY se eCovt sn 
Cov eX ipl Wr 2 
CC Co IY, cd CORE) 


如 果 Cov(X，Y) 二 0, 则 称 义 和 Y 是 不 相关 的 。 
同样 ， 如 果 随 机 向 量 X 和 随机 向 量 Y 是 同一 个 随机 向 量 ,那么 Cov(X,，Y) 
就 相应 转化 为 如 下 形式 : 


D(X1) Cov(X1,X2) … Cov(X1,X,) 
Cov(X:,X1) D(X;) "Cov(Xs,X,) 
Cov(X,X)= y (1.22) 
Cov(CX。 XiD) Cov(X,, Xs) … D(X,) 
称 上 述 矩 阵 为 随机 向 量 X 的 自 协 方差 阵 。 


1.2.6 随机 变量 的 相关 系数 








设 随机 变量 X 和 Y 的 期 望 与 方差 都 存在 ， 且 DC(X)>0，D(Y) 二 0， 把 相关 

系数 pw 定义 为 : 
一 CovCXY) 
Pw /DI VDT 

相关 系数 描述 了 随机 变量 之 间 的 相关 程度 。 

对 于 给 定 的 任意 两 个 随机 变量 X 和 Y， 它 们 之 间 的 相关 系数 pw ， 总 是 满足 
jpw | 三 1, 并 且 |p, | 二 1 的 充 要 条 件 是 XX 和 Y 线性 相关 ， 即 存在 常数 a 和 5b， 使 
得 Y=aX 十 b。 

相关 系数 只 是 随机 变量 间 线 性 关系 强 弱 的 一 个 度量 ， 因 而 说 得 更 确切 些 ， 应 
该 把 它 叫做 线性 相关 系数 。 

例 1.8 考察 某 河流 的 有 机 污染 状况 ， 分 别 在 4 个 不 同 断 面 上 监测 了 BOD;、 
COD、DO 三 项 指标 ( 表 1. 4)， 试 求 协 方差 矩阵 和 相关 系数 矩阵 。 


(1.23) 








表 1.4 某 河 流水 质 监测 结果 ”单位 : mg 人 LL 
断面 BOD; COD DO 
1# 2 3 8 
2# 3 5 8 
3# 19 19 4 
4# 3 6 7 
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解 根据 协 方差 定义 ,计算 得 表 1. 5。 











表 1.5 协 方差 阵 元 素 所 需 数据 表 
m X, 总 xX 一 X 一 人 
3 2 3 8 —5.25 1.25 
2 3 5 8 —3.25 1,25 
3 19 19 4 10.75 —2.78 
1 3 6 7 —225 0.25 
x 6.75 8.25 6.75 








ox, 一 EI[LX 一 ECXD]LX EC = DX XI) CX —T,) 


一 44.312 5 

an, =E{LX,—ECX)ILX, —E(X)J} = 局 CC 一 
一 一 11.3125 

oy =E{LX,—ECX) TX EX = DD Kw RX RL) 
一 一 10.187 5 


ax =E{LX,—ECX)F}=i 2 KR) 50.187 5 


x 
1 


i =E{[X,—ECXD) JY) = 2 (Xw —X,)*=39.687 5 


Oxixy =E{[X,—E(X)J}=i 之 (Xi 一 六 7) 一 2. 687 5 


即 协 方差 阵 为 : 
V=| 44.3125 39.6875 一 10.1875 
—11v3128e97=10:18%5 2.687 5 
根据 相关 系数 的 定义 ， 得 相关 系数 矩阵 为 : 
1.000 ”0.993 一 0.974 
0.993 1.000 一 0.986 
一 0.974 一 0.986 1.000 





50.187 5 44.3125 一 11.312 


R= 
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1.2.7 总 体 与 样本 


环境 统计 学 研究 的 对 象 是 环境 现象 的 数量 关系 和 数量 特征 ， 是 关于 数据 收 
集 、 整 理 、 归 纳 和 分 析 的 方法 论 科 学 ， 是 环境 研究 的 一 种 重要 方法 。 环 境 统计 方 
法 广泛 地 运用 于 环境 科学 的 各 个 方面 。 环 境 部 门 要 作出 决策 、 执 行 计划 、 检 查 监 
督 、 控 制 环境 污染 等 都 需要 以 充分 、 可 靠 的 统计 资料 为 基础 。 环 境 统计 方法 ， 需 
要 在 搜集 环境 数据 的 基础 上 ， 对 数据 整理 和 统计 描述 ， 运 用 统计 方法 及 环境 对 象 
的 有 关 知 识 ， 从 定量 与 定性 的 结合 上 进行 统计 分 析 。 环 境 统 计 描 述 可 以 把 数据 、 
情况 、 问 题 、 建 议 等 融 为 一 体 ， 是 发 挥 环境 统计 的 信息 、 咨 询 、 管 理 、 监 督 和 决 
策 功 能 的 重要 内 容 。 

在 统计 分 析 中 ,我 们 把 研究 对 象 的 全 体 所 构成 的 集合 称 为 总 体 〈 或 母体 )， 
总 体 通常 用 X,，Y，Z 来 表示 。 把 组 成 总 体 的 每 一 个 成 员 称 为 个 体 。 一 个 总 体 中 
所 含 的 个 体 的 数量 称 为 总 体 的 容量 。 在 实际 中 ， 为 了 研究 总 体 中 个 体 的 各 种 数值 
指标 和 推断 总 体 的 某 些 特征 ， 总 是 通过 对 总 体 中 部 分 个 体 的 观测 和 实验 来 推测 估 
计 整 个 总 体 的 特性 ， 这 样 就 需要 从 总 体 中 按 一 定 的 抽样 技术 抽取 若干 个 个 体 ， 通 
常 将 这 一 抽取 过 程 称 为 抽样 。 所 抽取 的 部 分 个 体 称 为 样本 ， 样 本 中 所 含 个 体 的 数 
量 称 为 样本 容量 。 

通过 一 定 的 抽样 技术 从 总 体 中 抽取 了 一 定 的 样本 后 ， 这 些 样本 所 含 的 信息 并 
不 能 直接 得 到 总 体 的 特征 ， 这 样 就 需要 我 们 对 这 些 样本 进行 数学 处 理 ， 构 造 不 同 
的 函数 来 反映 总 体 的 信息 。 在 数理 统计 中 ， 这 样 的 函数 被 称 为 统计 量 。 

统计 量 的 定义 : 设 总 体 构成 的 集合 为 X， 其 中 ，Xi ，X2 ，…，X, 为 从 总 体 
中 抽取 的 样本 ，P(CX ，X: ，…，X,) 是 (XI ，X: ，…，X,) 的 一 个 函数 ， 且 9 中 
不 含 任何 未 知 参数 ， 则 称 p(Xi，X。，…，X, ) 是 一 个 统计 量 。 例 如 ， 设 (X)， 
Xs) 是 从 总 体 NG， ) 中 抽取 的 一 个 二 维 样本 ， 其 中 o 为 未 知 参数 ， 则 式 子 X 


一 Xs，Xf 十 敬一 3，X 十 2pXs 为 样本 统计 量 ; 而 居 ， 寺 (Xi 十 X:) 一 “ 则 由 于 包 


含 未 知 参数 =， 不 是 样本 统计 量 。 

在 有 些 情 况 下 ， 人 们 获得 的 统计 资料 并 非 事物 整体 的 状况 ， 而 是 来 自 事物 的 
一 个 局 部 。 如 何 利用 局 部 的 数据 去 推断 整体 的 情况 ， 以 及 这 种 推断 的 有 效 性 和 可 
靠 性 如 何 ， 即 是 推断 统计 所 要 研究 的 内 容 。 通 俗 地 说 : 用 样本 统计 量 去 估计 总 体 
参数 的 依据 是 什么 ?要 回答 这 个 问题 ， 就 需要 掌握 统计 学 的 重要 定理 : 大 数 定理 
和 中 心 极 限定 理 。 
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1.2.8 样本 子 样 的 一 些 数字 特征 








设 样本 总 体 构成 的 集合 为 XX， 其 中 ，X;，X。，…，X, 为 从 总 体 中 抽取 的 一 
个 子 样 ，zi，z，…，z 分 别 为 相应 的 观测 值 ， 则 : 





仍 称 为 样本 均值 ; 


仍 称 为 样本 方差 ， 方 差 的 平方 根 * 称 为 样本 的 标准 差 ， 统 计量 
=l1 Sy 2) 
称 为 样本 的 人 阶 矩 (或 志 阶 原点 矩 )， 统 计量 
= 六 《二 二 用 2 玖 证 向 


称 为 样本 的 六 阶 中 心 矩 。 
1.2.9 大 数 定律 


根据 概率 的 定义 ,在 相同 条 件 下 ， 重 复 进行 次 试验 ,车 在 n 次 试验 中 ， 事 
件 A 发 生 的 次 数 ( 可 称 为 频数 ) 为 nn， 则 称 比值 /二 车 为 事件 A 在 n 次 试验 中 发 
生 的 频率 /。 如 果 当 n 充分 大 时 ，A 发 生 的 频率 稳定 地 在 某 一 数值 p 附近 摆动 ， 
而 且 一 般 来 说 随 着 试验 次 数 的 增多 ， 这 种 摆动 的 幅度 越 变 越 小 ， 即 频率 越 来 越 稳 
定 于 p， 则 称 p 为 此 随机 试验 中 随机 事件 A 发 生 的 概率 ， 记 作 : 

P(A)=p 

下 面 的 大 数 定律 将 从 理论 上 进一步 证 实事 件 的 频率 具有 稳定 性 。 

定理 ( 伯 努 利 大 数 定律 ) 设 n 是 ”次 独立 重复 试验 中 事件 A 发 生 的 次 数 ， 
p(0 二 p 二 1) 是 在 每 次 试验 中 事件 A 发 生 的 概率 ， 则 对 于 任意 正 数 e， 有 : 


snp (|p|>e]=0 
证 明 从 略 。 显 然 ， 由 互 逆 事 件 间 的 概率 关系 ， 上 式 又 可 写成 如 下 的 形式 : 
limP| 








wp| <e)=i 
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伯 努 利 大 数 定律 从 理论 上 证 明了 事件 A 在 n 次 独立 重复 试验 中 发 生 的 频率 
从， 当 半 逐渐 增 大 时 稳定 于 事件 A 的 概率 户 。 于 是 ， 当 半 充 分 大 时 ， 频 率 可 以 作 


n 
为 概率 的 近似 值 。 
利用 伯 努 利 大 数 定理 ， 可 以 近似 求解 随机 变量 的 概率 分 布 函 数 ， 下 面 介绍 用 
直方 图 来 表示 频率 直方 图 和 累计 频率 图 。 
例 1.9 噪声 测量 结果 (单位 : dB): 50，51，52，52，53，53，53，54， 
54，55， 求 概率 分 布 和 概率 密度 曲线 。 
解 〈1) 找 出 数据 中 的 最 小 值 m= 二 50， 最 大 值 M 二 55， 极 差 为 M 一 m 二 5。 
(2) 数 据 分 组 ， 取 a 二 49. 5( 略 小 于 m)，0 一 55. 5( 略 大 于 M)， 则 所 有 样本 值 全 


部 游人 区 间 (a， 信 内， 将 该 区 间 分 为 4 一 6 等 份 ， 称 每 一 等 份 的 长 度 A 一 对 < 一 1 为 


组 距 ; 决定 分 组 点 ， 分 组 如 下 : 49. 5 一 50. 5，50. 5 一 51.5，51. 5 一 52.5，52. 5 一 
53.5，53. 5 一 54.5，54. 5 一 55.5。 
(3) 作 出 频数 、 频 率 分 布 表 ( 表 1. 6)。 























表 1.6 频数 、 频 率 分 布 表 
组 序 区 间 范 围 频数 (/:) ”频率 (W) 一 了 /nm) 累计 频率 (F)) 
1 49. 5 一 50.5 1 0.1 0.1 
2 50.5~51.5 1 0.1 0.2 
3 51.5 一 52;5 2 0.2 0.4 
4 52. 5 一 53.5 3 0.3 0.7 
5 53.5 一 54.5 2 0.2 0.9 
6 54. 5 一 55.5 1 0.1 1.0 
(4) 作 出 频率 直方 图 和 累计 频率 图 。 
以 样本 值 为 横 坐 标 ， 频 率 (频率 /组 距 ， 对 于 异 距 频 率 分 布 ) 为 纵 坐 标的 直角 
W 


坐标 系 中 ， 以 分 组 区 间 为 底 ， RE， (二 1，2，…，6) 为 高 作 
一 系列 矩形 ， 即 频率 直方 图 (图 1 - 6)。 累 计 频 率 图 ， 见 图 1-7。 





0 0 
50 51 52 53 54 55 50 51 52 53 54 55 


噪声 /dB 噪声 /dB 
图 1-6 频率 直方 图 图 1-7 累计 频率 图 


(5) 通 过 矩形 项 边 画 一 条 光滑 的 曲线 ， 得 到 概率 密度 曲线 和 分 布 函 数 曲线 的 
近似 曲线 (图 1-6 一 1-7)。 


1.2.10 中 心 极限 定理 


假如 从 总 体 中 随机 抽取 若干 个 容量 为 n 的 样本 ， 对 每 个 样本 都 可 以 计算 均 
值 ， 这 些 均值 的 分 布 即 为 样本 均值 的 分 布 。 下 面 我 们 通过 一 个 算 例 引 出 一 个 重要 
的 定理 一 一 中 心 极限 定理 (康永 尚 等 ，2005)。 

例 1.10 设 某 一 随机 变量 X( 总 体 ) 包 含 5 个 个 体 (样本 点 )， 其 变量 值 、 期 望 
值 和 方差 列 于 表 1. 7 中 ， 随 机 抽取 容量 为 2 的 样本 ， 考 察 样本 均值 的 分 布 。 








表 1.7 随机 变量 X( 总 体 ) 的 取 值 、 期 望 值 和 方差 
序号 X 的 取 值 X 的 期 望 值 义 的 方差 
1 332 
2 336 p=E(X) = z=340 DOO=Z= 辣 D0) =32 
3 340 
4 344 
5 348 








解 ” 随 机 抽取 容量 为 2 的 样本 ( 放 回 抽样 )， 可 能 抽 到 的 样本 点 组 合 、 变 量 值 
组 合 、 均 值 及 均值 统计 量 列 于 表 1.8 中 。 
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表 1.8 样本 点 组 合 、 变 量 值 组 合 、 均 值 及 均值 统计 量 
样本 序号 样本 点 组 合 。 变量 值 组 合 。 样本 均值 样本 均值 统计 量 

1 thy TD (332，332) 332 样本 均值 的 期 望 值 : 
2 (1, 2) (332, 336) 334 

3 (1, 3) (332, 340) 336 E(X)= 志 2 = 
4 (1, 4) (332, 344) 338 

5 (1, 5) (332, 348) 340 样本 均值 的 方差 ， 
6 (2, 1) (336, 332) 334 

7 (2, 2) (336, 336) 336 DW)= 去 2 [去 一 ECX) 卫 一 16 
8 (2, 3) (336, 340) 338 

9 (2, 4) (336, 344) 340 

10 (2, 5) (336, 348) 342 

11 (3, 1) 《340，332) 336 

12 (3, 2) (340，336) 338 

13 (3, 3) (340，340) 340 

14 (3, 4) (340，344) 342 

15 (3, 5) (340, 348) 344 

16 (4，1) (344，332) 338 

17 (4, 2) (344, 336) 340 

18 (4, 3) (344, 340) 342 

19 (4, 4 (344, 344) 344 

20 (4, 5) (344, 348) 346 

21 (5, 1) (348, 332) 340 

22 (5, 2) (348, 336) 342 

23 (5, 3) (348, 340) 344 

24 (5, 4) (348, 344) 346 

25 (5, 5) (348, 348) 348 





对 比 表 1.7 和 表 1. 8 可 以 发 现 ， 样 本 均值 的 期 望 值 正好 等 于 变量 (总 体 ) 的 期 
望 值 ， 样 本 均值 的 方差 正好 等 于 变量 (总 体 ) 的 方差 除 以 样本 容量 。 这 些 现象 的 出 
现 不 是 偶然 的 ， 而 是 背后 的 定理 发 挥 作用 的 结果 ， 这 一 定理 就 是 中 心 极限 定理 。 
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中 心 极 限定 理 可 以 表述 为 : 从 期 望 值 为 x、 方差 为 的 随机 变量 (总 体 ) 中 独 
立 随 机 地 抽取 容量 为 的 样本 ,该 样本 的 均值 X 为 一 随机 变量 ,该 随机 变量 服 


从 于 期 电信 为 、 方 差 为 的 正 态 分 布 ， 即 : 
E(X)= 








3 


D(X)= 


且 这 种 趋势 随 的 增 大 而 愈加 明显 。 
根据 具体 的 应 用 条 件 ， 可 分 为 三 种 情况 : 


(1) 总 体 服从 正 态 分 布 ， 且 天 已 知 ， 此 时 ， 尖 服 从 标准 正 态 分 布 。 


(2) 总 体 服从 任意 分 布 ， 闫 未 知 ，n 主 30， 此 时 ，X 二 近似 服从 标准 正 态 分 


s/Vn 
y 
布 , 其 中 s 二 | 他 一 一 为 样本 均 方差。 


(3) 总 体 服从 正 态 分 布 , F 未知，n 二 30， 此 时 ， 中 心 极限 定理 已 不 适合 ， 


sl 


(1.24) 






各 了 眼 从 自 由 度 为 (n 一 1 的 Student 分 布 (又 称 4 分 布 )， 其 中 s == 
5, 天 


为 样本 均 方 差 。 





估计 就 是 根据 拥有 的 信息 来 对 现实 世界 进行 某 种 判断 。 数 理 统计 的 基本 任务 
是 依据 取 自 总 体 的 样本 对 总 体 进行 推断 。 如 果 知 道 了 总 体 的 分 布 类 型 ， 分 布 便 由 
几 个 与 总 体 有 关 的 未 知 数字 决定 。 要 掌握 总 体 的 分 布 ， 依 据 样本 对 这 些 未 知 参 数 
作 尽 可 能 准确 的 推断 就 显得 非常 重要 。 

从 数据 得 到 关于 现实 世界 结论 的 过 程 就 叫做 统计 推断 (statistical inference) 。 
估计 (estimation) 是 统计 推断 的 重要 内 容 之 一 。 统 计 推 断 的 另 一 个 主要 内 容 是 下 
一 节 要 引进 的 假设 检验 (hypothesis test) 。 ， 

人 们 往往 先 假定 某 数据 来 自 一 个 特定 的 总 体 族 (比如 正 态 分 布 族 )， 但 若 要 确 
定 是 总 体 族 的 哪个 成 员 则 需要 知道 总 体 参数 值 ( 比 如 总 体 均值 和 总 体 方差 )， 于 是 
可 以 用 相应 的 样本 统计 量 (比如 样本 均值 和 样本 方差 ) 来 估计 相应 的 总 体 参 数 。 
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一 些 常 见 的 涉及 总 体 的 参数 包括 总 体 均 值 (jy)、 总 体 标准 差 (o) 或 方差 (0 )。 
正 态 分 布 族 中 的 成 员 由 (总 体 ) 均 值 和 标准 差 完全 确定 。 

佑 计 的 根据 为 从 总 体 抽取 的 样本 。 如 果 样 本 已 经 得 到 ， 把 数据 代入 之 后 ， 估 
计量 就 有 了 一 个 数值 ， 称 为 该 估计 量 的 一 个 实现 (Crealization) 或 取 值 ， 也 称 为 一 
个 估计 值 。 

这 里 简单 地 介绍 两 种 估计 ， 一 种 是 点 估计 (point estimation)， 即 用 估计 量 的 
实现 值 来 近似 相应 的 总 体 参数 ， 另 一 种 是 区 间 估 计 (interval estimation)， 它 是 包 
括 估计 量 在 内 (有 时 是 以 估计 量 为 中 心 ) 的 一 个 区 间 ， 该 区 间 被 认为 很 可 能 包含 总 
体 参数 。 点 估计 给 出 一 个 数字 ， 用 起 来 很 方便 ， 而 区 间 估计 给 出 一 个 区 间 。 

最 常用 的 估计 量 就 是 我 们 熟悉 的 样本 均值 、 样 本 标准 差 : 人 们 用 它们 来 分 别 
估计 总 体 均值 (x)、 总 体 标准 差 (0) 。 

本 书 中 只 对 参数 估计 部 分 作 简单 的 介绍 。 








1.3.1 点 估计 


点 估计 是 对 真 值 9 以 单一 的 数据 8 为 估计 值 的 方法 。 用 单一 的 数据 表示 估计 
值 ， 在 环境 问题 的 分 析 及 预测 中 经 常用 到 。 点 估计 问题 就 是 要 根据 样本 Xi， 
Xs，…，X, 构造 一 个 统计 量 9CXi，X。，…，X,) 作 为 参数 0 的 估计 ， 我 们 称 8 
为 参数 0 的 估计 量 。 如 果 zl ，z:，…，z, 是 样本 的 一 组 观测 值 ， 代 入 统计 量 9 就 
得 到 8 的 具体 数值 ， 这 个 数值 常 称 为 g 的 估计 值 。 估 计量 8 是 样本 Xi ，Xs，…， 
X, 的 函数 ， 它 不 包含 未 知 参数 ， 也 就 是 说 8 是 一 个 估计 用 的 统计 量 。 当 我 们 获 
得 样本 观测 值 r: ，zz，…，zv 后 ， 就 用 (zi，z，…，zm) 作 为 未 知 参数 0 的 估 
计 值 。 对 于 不 同 的 样本 观测 值 ， 所 得 的 估计 值 是 不 同 的 。 例 如 : 假定 我 们 要 估计 
一 个 班 学 生 考试 成 绩 的 平均 分 数 ， 根 据 一 个 抽出 的 随机 样本 计算 的 平均 分 数 为 
80 分 ， 我 们 就 用 80 分 作为 全 班 考 试 成 绩 平均 分 数 的 一 个 估计 值 ， 这 就 是 点 
估计 。 


1.3.2 区间 估计 


因为 点 估计 难以 评价 待 估 参 数 估计 值 与 其 真 值 之 间 的 接近 程度 ， 即 无 法 通过 
点 估计 来 度量 估计 值 的 可 信 程度 ， 因 此 引进 区 间 估 计 。 

给 出 一 个 区 间 ( 置 信 区 间 ) (名)， 并 预测 真正 的 参数 以 一 定 的 概率 属于 该 
区 间 的 方法 称 为 区 间 估计 ， 这 一 区 间 能 够 覆盖 真 值 的 概率 称 为 置信 系数 。 当 给 定 
常数 a(0 二 a 二 1), 车 有 P( 六 一 0<0.) 三 1 一 成立， 则 称 忆 到 久 这 一 区 间 能 够 覆 
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盖 真 值 的 概率 为 1 一 a。( 名 ,名 ) 为 待 估 参 数 9 的 置信 水 平 为 1 一 a 的 置信 区 间 ; 
外， 名 称 为 置信 下 限 和 置信 上 限 ; 1 一 a 称 为 置信 水 平 : a 称 为 显著 性 水 平 ， 为 区 
间 (01， 后) 不 含 9 的 概率 ， 即 对 未 知 参数 估计 失 准 的 概率 。 

以 下 以 正 态 分 布 样本 均值 的 区 间 估 计 为 例 说 明 区 间 估 计 的 含义 。 


根据 中 心 极限 定理 ， XX 服从 标准 正 态 分 布 ， 从 而 可 以 得 到 ; 








oN 

p(—z :Ee )= iv (1.25) 
上 式 经 过 变换 后 可 得 : 

,2 4 死 十 世 ou 

PR- 生 ne<w<X+ 呈 roj=1-a (1. 26) 
上 式 即 表示 : 在 (1 一 a) 置 信 水 平 下 总 体 期 望 值 的 区 间 估 计 为 : 
一 二 rp<pe<X 十 工 zup 
ESpX+ Er ‘i275 


例 1.11 河流 某 一 河 段 溶解 氧 (DO) 含 量 符合 X 一 NGC， 到)， 史 一 1， 今 从 该 
河 段 中 随机 监测 了 5 次 ， 监 测 结果 (单位 : mg/L) 为 4，4，5，6，6， 试 在 置信 度 
0. 95 下 ， 求 参数 y 的 区 间 估 计 。 


解 ” 根 据 中 心 极限 定理 :< 二 < 服从 标准 正 态 分 布 ， 故 该 河 段 溶解 氧 的 期 望 


aa 
值 的 置信 区 间 可 用 公式 入 一 zu ASv<X+n 2 [到 


因为 : 
X=5, n=5;, xo.0=1. 96 
所 以 经 计算 ,参数 4 的 置信 度 为 0. 95 的 区 间 估 计 为 (4. 123 5，5. 876 5)。 
统计 学 家 想 出 了 许多 标准 来 衡量 一 个 估计 量 的 好 坏 。 每 个 标准 一 般 都 仅 反映 
估计 量 的 某 个 方面 。 对 一 个 估计 量 的 衡量 标准 主要 有 无 偏 性 、 一 致 估计 性 和 有 效 
性 。 下 面 就 简单 介绍 一 下 估计 量 的 几 个 评价 标准 。 


1.3.2.1 无 偏 估计 量 


设 6 一 0(X ，Xz，…，X,) 是 未 知 参数 0 的 一 个 估计 量 ， 若 
E(0)=0 
则 称 9 为 9 的 无 偏 估计 量 。 
事实 上 对 于 无 偏 估计 量 ， 提 出 了 8 应 该 满足 的 无 系统 偏差 的 条 件 。 9 是 一 个 
随机 变量 ,其 取 值 应 在 参数 真 值 9 左右 波动 ， 即 6 的 平均 值 应 该 与 9 的 真 值 相同 ， 
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这 就 是 无 偏 性 (没有 偏差 ) 的 要 求 。 无 偏 估计 的 真实 意义 是 : 如 果 相互 独立 的 重复 
多 次 用 无 偏 估 计量 9 对 09 进行 估计 ， 那么 所 得 估计 值 的 算术 平均 值 应 该 与 9 的 真 
值 基 本 上 相同 。 

当 一 个 估计 量 不 是 无 偏 估 计量 时 ， 称 它 为 有 偏 估计 量 。 

样本 均值 是 总 体 均值 的 无 偏 估计 量 ， 而 样本 方差 不 是 总 体 方差 的 无 偏 估 
计量 。 
因为 X, 与 总 体 X 是 独立 且 同 分 布 的 随机 变量 , 故 ECXi)=1,，D(Xi) 二 
(i 二 1，2,， ,nn)， 从 而 


ECX)=E(1 > x,)=+ SY Et,y=y 
a n ii 了 1 
所 以 六 是 j 的 无 偏 估计 量 。 
而 EcS)=E( 3 (Xi—R)*)=1 六 [ECXD) —ECX:)] 
et 1 
E(X?)=D(X)+E(X)’=0 +ye 
1 2 


E(X’)=D(X)+E(XR) =70 +pe 


所 以 ECS') = le: 


因此 样本 方差 S 不 是 的 无 偏 估计 量 , 但 是 当 n->oo 时 ，E(S*) 二 go?， 这 样 
的 统计 量 称 之 为 渐 近 统计 量 。 
实际 上 ， 只 要 对 S: 作 一 点 修正 就 可 以 得 到 方差 的 无 偏 统计 量 ， 令 修正 的 样 
本 方差 为 : 
二 一 站 区 


则 此 时 








ES 一 E(5 5 )=- 1 =e 


所 以 ,修正 的 样本 方差 5" 即 是 总 体 方差 的 无 偏 估计 量 。 
无 偏 估 计 是 点 估计 的 基本 要 求 ， 它 保证 9 对 9 的 估计 只 有 随机 误差 ， 而 没有 


1.3.2.2 一 致 估计 


设 9 二 Xl，X。，…，X,) 为 参数 9 的 一 个 估计 量 ,n 为 样本 容量 。 若 对 于 
任意 0EB， 当 n>oo 时 ,0(X1，Xs，…，X,) 依 概率 收敛 于 9， 则 称 9 为 9 的 一 
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致 估计 量 。 即 对 任何 一 个 es>0, 式 

limP(|B, 一 0 之 e) 二 0 或 limP(|B. 一 0|<e)=1 
成 立 ， 则 称 9 为 参数 0 的 一 致 估计 量 。 
1.3.2.3 有 效 性 


由 于 2 的 无 偏 估计 是 不 唯一 的 ,那么 在 2 的 无 偏 估计 中 哪个 更 好 呢 ? 这 里 
“好 ”的 意思 是 9 的 取 值 更 靠近 0 或 更 集中 在 9 的 附近 ， 在 统计 中 常用 方差 来 描述 。 
设 扣 ,后 是 总 体 未知 参 数 0 的 两 个 无 偏 估计 量 ， 若 对 任意 的 样本 容量 nw， 有 
方差 
DO)<DD,) 

且 至 少 对 某 一 个 E@， 上 式 中 的 不 等 号 成 立 ， 则 称 久 是 比如 有 效 的 估计 量 。 
如 果 在 0 的 一 切 无 偏 估计 量 中 ， 久 的 方差 最 小 ， 则 称 久 是 0 的 有 效 估计 量 
事实 上 ， 对 有 效 估计 量 提出 了 估计 量 应 该 满足 波动 性 小 的 条 件 。 无 系统 偏差 

的 估计 可 能 有 很 多 ， 应 该 挑选 其 中 波动 最 小 的 作为 估计 量 。 估 计量 9 的 方差 DOO) 是 

对 8 波动 性 的 度量 ， 波 动 最 小 即 要 求 方差 达到 最 小 ， 这 就 是 有 效 性 的 基本 要 求 。 
有 效 性 的 直观 含义 是 : 如果 负 ，% 分 布 的 均值 都 是 6， 若 记 比如 有 效 ， 那 么 

六 的 分 布 形状 比较 尖 ， 而 记 的 分 布 形状 比较 平坦 ， 也 就 是 说 ，2 在 9 附近 取 值 

的 概率 比 9 大 。 


前 面 介绍 了 统计 推断 的 一 类 方法 一 一 未 知 参数 的 统计 估 值 ， 总 体 未 知 参数 的 
点 估计 与 区 间 估 计 问 题 。 而 在 一 些 实际 问题 中 ， 需 要 知道 总 体 的 未 知 参数 有 无 明 
显 的 变化 ， 或 是 否 达到 既定 的 要 求 ， 或 多 个 总 体 的 某 个 参数 有 无 明显 的 差异 等 。 
下 面 介绍 的 统计 检验 就 是 统计 推断 的 另 一 类 方法 。 

我 们 先 看 一 个 例子 。 如 果 一 个 人 说 他 从 来 没有 骗 过 人 ， 能 够 证 明 吗 ? 要 证 明 
他 没有 骗 过 人 ， 必 须 出 示 他 从 小 到 大 每 一 时 刻 的 经 历 ， 还 要 证 明 这 些 经 历 是 完全 
的 、 真 实 的 、 没 有 间断 的 ， 这 简直 是 不 可 能 的 。 即 使 他 找到 一 些 证 人 ， 那 也 只 能 
够 证 明 在 那些 证 人 在 场 的 某 些 片刻 ， 他 没有 被 听 到 骗 过 人 。 反 过 来 ， 要 证 明 这 个 
人 骗 过 人 很 容易 ， 只 要 有 一 次 被 抓 住 就 足够 了 。 肯 定 事物 很 难 ， 而 否定 却 相 对 容 
易 得 多 ， 这 就 是 假设 检验 背后 的 哲学 。 科 学 总 是 在 否定 中 发 展 。 

在 假设 检验 中 ， 一 般 要 设立 一 个 原 假设 (上 面 的 “从 来 没 骗 过 人 ”就 是 一 个 
例子 )， 而 设立 该 假设 的 动机 主要 是 企图 利用 人 们 掌握 的 反映 现实 世界 的 数据 来 
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找 出 假设 与 现实 之 间 的 矛盾 ， 从 而 否定 这 个 假设 。 


1.4.1 假设 检验 的 原理 








在 统计 学 上 ， 首 先是 对 问题 发 表 “ 看 法 ”此 时 称 之 为 假设 (hypothesis)， 而 
依据 样本 用 一 定 的 方法 论证 这 一 假设 是 否 成 立 称 之 为 统计 检验 (statistic test) 。 
对 总 体 的 分 布 函数 形式 或 分 布 中 某 些 未 知 参数 作出 某 种 假设 ， 然 后 抽取 样本 ， 构 造 
适当 的 统计 量 ， 对 假设 的 正确 性 进行 判断 的 过 程 ， 称 为 假设 检验 ( 何 晓 群 ，2003) 。 

在 假设 检验 中 ， 首 先 要 提出 一 个 原 假设 ， 比 如 某 正 态 总 体 的 均值 等 于 9 一 9)， 
这 种 原 假设 也 称 为 零 假 设 ， 记 为 Hs。 与 此 同时 必须 提出 与 之 对 立 的 假设 称 为 备 
择 假设 (或 备 选 假 设 )， 比 如 总 体 均值 大 于 9(w>9)， 备 择 假设 记 为 Hl。 形式 上 ， 
这 个 关于 总 体 均值 的 H。 相 对 于 Hi 的 检验 记 为 Ho: p=9; Hi: p>9。 

在 多 数 统计 教材 中 假设 检验 都 是 以 否定 原 假设 为 目标 。 如 否定 不 了 ， 说 明证 
据 不 足 ， 无 法 否定 原 假设 ， 但 不 能 说 明 原 假设 正确 ， 就 像 一 两 次 没有 听 过 一 个 人 
骗 人 还 远 不 能 证 明 他 从 来 没有 骗 过 人 。 

备 择 假设 应 该 按照 现实 世界 所 代表 的 方向 来 确定 ， 即 它 通常 是 被 认为 可 能 比 
原 假设 更 符合 数据 所 代表 的 现实 ， 比 如 上 面 的 瑟 , 为 w>9; 这 意味 着 ， 至 少 样本 
均值 应 该 大 于 9; 至 于 是 否 显著 ， 依 检验 结果 而 定 。 检 验 结果 显著 意味 着 有 理由 
拒绝 原 假设 。 因 此 ， 假 设 检验 也 被 称 为 显著 性 检验 。 

有 了 两 个 假设 ， 就 要 根据 数据 来 对 它们 进行 判断 。 数 据 的 代表 是 作为 其 函数 
的 统计 量 ， 它 在 检验 中 被 称 为 检验 统计 量 。 根 据 原 假设 (不 是 备 择 假设 )， 可 得 到 
该 检验 统计 量 的 分 布 ， 再 看 这 个 统计 量 的 数据 实现 值 属 不 属于 小 概率 事件 。 也 就 是 
说 把 数据 代入 检验 统计 量 ， 看 其 值 是 否 落 入 原 假 设 下 的 小 概率 范畴 ; 如 果 的 确 是 小 
概率 事件 ， 也 就 是 说 ， 原 假设 发 生 的 概率 相对 较 小 ， 那 么 就 有 可 能 拒绝 原 假设 ， 或 
者 说 “该 检验 显著 ”; 否则 说 “没有 足够 证 据 拒绝 原 假设 ”或 者 “该 检验 不 显著 ”。 

但 小 概率 并 不 能 说 明 不 会 发 生 ， 仅 仅 是 发 生 的 概率 很 小 罢了 。 拒 绝 正确 原 假 
设 的 错误 常 被 称 为 第 一 类 错误 ， 其 发 生 的 概率 称 为 犯 第 一 类 错误 的 概率 ， 通 常 记 
为 w， 即 : 

Pi 拒绝 Ho | Hi 为 真 }<c 

在 一 般 情 况 下 ， 对 于 给 定 的 a， 我 们 称 其 为 显著 性 水 平 ，1 一 a 称 为 置信 水 平 。 

在 备 择 假 设 正确 时 反而 说 原 假设 正确 所 犯错 误 ， 称 为 第 二 类 错误 ， 其 发 生 的 
概率 称 为 第 二 类 错误 的 概率 ， 通 常 记 为 B， 即 : 

P{ 接 受 Ho。| Hi 不 真 } 
但 是 在 实际 的 统计 推断 中 ,我 们 大 多 用 犯 第 一 类 错误 的 概率 来 检验 到 底 是 接 


外 


26 


环境 统计 分 析 


受 还 是 拒绝 原 假设 。 

对 于 给 定 的 检验 法 则 ， 本 质 上 是 将 样本 空间 划分 为 互 不 相交 的 两 个 子 集 C， 
C*， 使 得 当 样本 观测 点 在 C 里 面 时 ， 拒 绝 原 假设 ，C 即 是 拒绝 域 ; 而 当 样本 观 
测 点 在 C" 里 面 时 ， 接 受 原 假设 ，C" 即 为 接受 域 。 


1.4.2 假设 检验 的 步 又 








归纳 起 来 ， 假 设 检 验 的 步骤 为 : 
1， 提 出 原 假设 及 。 和 备 择 假 设 Hi ; 

给 定 显著 性 水 平 a 以 及 样本 容量 n; 
确定 检验 统计 量 以 及 拒绝 域 的 形式 ; 
. 按 忆 拒绝 H, | Ho 为 真 }<a 查 出 检验 统计 量 临界 值 ， 求 出 拒绝 域 ; 

取样 ， 根 据 样本 观察 值 作出 决策 ， 是 接受 H, 还 是 拒绝 Po 。 

大 多 数 假设 检验 的 检验 统计 量 服从 分布、 x 分 布 、F 分 布 或 其 他 特殊 的 理 

论 分 布 。 进 行 这 类 检验 时 ， 通 常 在 检验 之 前 确定 显著 性 水 平 ， 并 从 有 关 表 格 中 查 
出 用 于 判断 的 检验 统计 量 临界 值 ， 然 后 将 检验 统计 量 与 临界 值 相 比 ， 即 可 作出 统 


Mon 


计 推断 。 


例如 在 回归 方程 的 显著 性 检验 中 ， 就 是 要 看 自 变量 zi，zz，…，z 从 整体 
上 对 随机 变量 > 是 否 有 明显 的 影响 。 为 此 ， 可 提出 假设 : 
Ho: bh=h="=b=0 
如 果 Hi 被 接受 ， 则 表明 随机 变量 y 与 1，x:，*…，zi 之 间 的 关系 由 线性 回归 
模型 表示 不 合适 。 





有 统计 量 : 
gm kD 
是 ,可 利用 下 统计 量 对 回归 方程 的 总 体 显著 性 进行 检验 。 对 于 给 定 的 数据 (y， 
rn zr 1 2，…， ns nn 之 十 1)， 计 算出 Sa 和 Sa， 其 中 


Sa 一 > (3 一 y)” 为 回归 平方 和 ，Sa 一 也 (y 一 %)? 为 残 差 平方 和 ， 进 而 得 到 


下 的 值 ， 再 由 给 定 的 显著 性 水 平 a， 查分 布 表 ， 得 临界 值 FC(k,，n 一 k 一 1)。 

当 F>F,(k，n 一 k 一 1)， 则 拒绝 假设 H。， 认 为 在 显著 性 水 平 a 下 ，y 对 zi， 
心 ，…， 六 有 显著 的 线性 关系 ， 即 回归 方程 是 显著 的 ; 车 有 FS<F (k,n 一 k 一 1)， 
则 没有 足够 的 理由 否定 H。， 认 为 回归 方程 不 显著 。 其 中 F。(&，n 一 k 一 1) 是 给 定 
显著 性 水 平 a。 下 ， 查 第 一 自由 度 为 k， 第 二 自由 度 为 a 一 k 一 1 的 下 分 布 表 所 得 的 
下 临界 值 。 
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1.4.3 参数 检验 


假设 检验 在 统计 模型 的 显著 性 检验 中 具有 十 分 重要 的 意义 。 下 面 对 常 用 的 Z 
检验 、t 检验、 六 检验 和 下 检验 等 参数 检验 方法 作 介 绍 。 


1.4.3.1 总 体 方差 已 知 ， 检 验 总 体 均值 


设 总 体 X 一 NG or*)， 方差 为 ， 从 总 体 X 中 抽取 样本 Xi ，Xs，…，X， 
样本 均值 为 尺 ， 检 验 总 体 均值 w， 给 出 如 下 的 三 种 检验 假设 : 

C1 Has ppod HL: ep 

(2 Ho: pi Hi: pp 

Ce 
其 中 ,jw 已 知 ， 为 方便 起 见 ， 把 (1) 中 的 假设 叫做 双 侧 假设 ;(2)、(3) 中 的 假设 
叫做 单 侧 假设 ， 对 它们 所 作 的 检验 分 别 叫做 双 侧 检验 和 单 侧 检验 。 

对 于 一 个 正 态 总 体 的 均值 假设 检验 ， 当 王 已 知 时 ， 不论 是 双 侧 检验 还 是 单 


侧 检验 ， 都 用 2 一 No 1) 进 行 检验 ， 这 种 用 正 态 变量 作为 检验 统计 量 的 


假设 检验 方法 ， 称 为 Z 检验 法 。 表 1. 9 列 出 了 单个 总 体 均 值 的 Z 检 验 法 ( 陈 玉 成 
等 ，1998)。 








表 1.9 oF 已 知 时 单个 总 体 均值 的 检验 法 
检验 方法 双 侧 检验 单 侧 检验 
原 假设 H， AH 一 内 tm HSAm 
备 择 假设 全 pp 1pm Peg 
检验 统计 量 = 人 
临界 值 C Ea a 二 
拒绝 域 1ZI>C Z<C ZEC 





例 1. 12 检验 一 污水 处 理 厂 出 水 的 氧化 物 浓度 , 共 采 了 25 个 水 样 。 设 水 样 的 
氧化 物 浓度 服从 正 态 分 布 。 问 :车 标准 差 为 oo 二 10 mg/L, 水 样 的 氧化 物 平均 浓度 
为 279 mg/L, 出 水 的 氯 化 物 浓度 是 否 超过 设计 的 250 mg/L 的 标准 ? 
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解 ”本 问题 是 检验 污水 处 理 厂 出 水 的 氧化 物 浓度 是 否 超过 预期 设计 的 标准 ， 
这 是 一 个 单 侧 的 正 态 检验 。 
已 知 条件 :yw 二 250 mg/L, 显 著 性 水 平 一 0.05,m 一 10,x 一 25 
根据 数据 ,计算 得 到 :又 一 279 mg/ 工 


假设 检验 过 程 为 : 
Ho :p=p=250 
机 :Am 
检验 统计 量 为 : 
Z—!2—l_1279—250|_14.5 
0, /Nn 10/V25 


取 w=0.05， 从 附 表 中 查 出 临界 值 C==z, = 二 1.645， 显 然 Z 之 C， 故 拒绝 原 假 
设 H，， 说明 出 水 的 氯 化 物 浓度 超过 了 设计 的 250 mg/L 的 标准 。 


1.4.3.2 总 体 方差 未知， 检验 总 体 均值 


设 总 体 X 一 NA ,方差 到 未 知 ， 从 总 体 X 中 随机 抽取 样本 Xi， 
Xe，…，X,， 样 本 均值 与 有 与 S*， 检 验 总 体 均值 x， 给 出 如 下 
三 种 检验 假设 : 

CD Ho p= mt Hi po 

(2) Ho: ppos Hi: pp 

Ho: ppo; Hi: Am 

对 于 一 个 正 态 总 体 , 方差 * 未 知 ， 检 验 总 体 均值 x 类 似 于 方差 of 已 知情 形 
的 讨论 。 但 是 由 于 总 体 方差 到 未知， 所 以 统计 量 Z 已 经 不 能 使 用 。 因 为 Z 中 含 
有 未 知 参 数 o*， 它 已 经 不 是 一 个 统计 量 ， 所 以 要 选取 一 个 不 含 未 知 参数 o 的 统 
计量 。 考 虑 用 方差 的 渐 近 无 偏 估计 S"? 来 取代 总 体 方差 ， 这 样 就 得 到 :统计 量 。 

对 于 一 个 正 态 总 体 的 均值 假设 检验 ， 在 总 体 方差 于 未 知 的 情况 下 ， 不 论 是 


双 侧 检 验 还 是 单 侧 检 验 ， 都 用 :一 一 上 (n 一 1) 进行 检验 ， 由 于 引入 的 检验 


统计 量 均 为 + 统计 量 ， 故 对 正 态 总 体 均值 的 检验 称 为 + 检验 法 。 表 1. 10 列 出 了 单 
个 总 体 均值 的 上 检验 法 。 
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表 1.10 中 未 知 时 单个 总 体 均值 的 + 检验 法 
检验 方法 双 侧 检验 单 侧 检验 
原 假设 HH。 4 一 内 AP ASm 
备 择 假设 HH， pp pp pag 
检验 统计 量 三 
临界 值 C tz Cn 一 1) 一 4 (n—l) 如 CT 
统计 推断 ”拒绝 域 lil>C eC Cc 





例 1.13 在 对 AAS( 原 子 吸 收 分 光 光度 法 ) 测 定 淡水 沉积 物 中 Ni 含量 的 方法 
进行 考核 时 ,使 用 了 已 知 的 Ni 浓度 为 4. 55 mg/kg 的 参照 样 。 按 规定 的 消解 和 分 
析 程 序 对 此 参照 样 进行 5 次 重复 测定 ， 结 果 ( 单 位: mg/kg) 为 4. 28，4. 40， 
4. 42，4. 35，4. 37， 和 希望 据 此 判断 所 使 用 的 测定 方法 有 没有 明显 的 系统 误差 ? 

解 ”该 问题 用 统计 语言 表述 为 : 总体 均值 ( 即 用 AAS 进行 多 次 测定 所 得 到 数 
据 的 均值 ) 与 已 知 值 (参照 样 4. 55 mg/kg) 之 间 有 没有 显著 性 差异 ， 属 于 单个 总 体 
均值 比较 。 由 于 系统 误差 可 能 偏 高 ， 也 可 能 偏 低 ， 故 采用 双 侧 + 检验 。 

有 关 已 知 条 件 为 : jw 二 4. 55,， n= 二 5，X==4. 364，S 一 0.054 

则 检测 过 程 为 : 

Ho: Ap 一 /一 4.553 Hi: pF#p 
检验 统计 量 为 : 


一 | 一 和 | |4.364—4.55| _7 702 
5 


取 =0. 05， 从 附 表 中 查 出 双 侧 检验 临界 值 C 一 zz Cn 一 1) 二 tw (4) 一 2.776， 
显然 :>C， 故 拒绝 甩 。,， 即 这 种 方法 存在 明显 的 系统 误差 。 


1.4.3.3 一 个 正 态 总 体 方差 的 假设 检验 


设 有 正 态 总 体 X 一 N(p, 一 )， jp 与 0 均 未 知 ， 从 总 体 X 中 随机 抽取 样本 
Xi1，X，，…，X,， 样 本 方差 为 Sr ， 检 验 总 体 方差 上 *， 给 出 如 下 三 种 检验 假设 : 

(DHo: o=0; Hi: o #0 

(2)Ho: o>0; Hi: oo 

(3)Ho: eos; Hi: o> 

对 于 以 上 三 个 假设 检验 问题 ， 在 Ho 为 真 的 条 件 下 ， 用 于 检验 假设 Ho 的 检 
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验 统计 基 及 其 分 布 均 为 二 僵直 zn 一 1)。 由 于 引入 的 检验 统计 量 为 刀 
统计 量 ， 故 称 对 正 态 总 体 方差 的 检验 为 检验 法 。 表 1. 11 列 出 了 单个 总 体 均值 
的 六 检验 法 。 





表 1.11 单个 总 体 方差 的 x 检验 法 (a 水平) 
检验 方法 双 侧 检验 单 侧 检验 
原 假设 瓦 2 o> F< 
备 择 假 设 乒 oF < o> 
: —Ds: 
检验 统计 量 = 是 
检验 临界 值 A 对 CO 一 D) Ral) 
拒绝 域 Ri 





例 1.14 一 自动 车 床 加 工 零 件 的 精度 服从 正 态 分 布 N(x，er*)， 原 来 加 工 精 
度 四 一 0.18。 经 过 一 段 时 间 的 生产 后 ， 要 检验 一 下 这 一 车 床 是 否 保持 原来 的 精 
度 ， 即 检验 假设 日,: 二 0. 18。 为 此 抽取 这 车 床 所 加 工 的 31 个 零件 ， 测 得 数据 
如 下 表 ( 表 1.12)。 








表 1.12 测量 数据 
零件 长 度 zx 10.1 10.3 10.6 11.2 US 11.8 12.0 
频数 六 1 3 7 10 6 和 1 


在 给 定 显著 性 水 平 a 二 0. 05 的 情况 下 ， 根 据 题 意 只 考虑 单 侧 的 情形 ， 由 
P(x >xi.0(30))=0..05 
定 出 临界 值 。 查 自由 度 为 30 的 x? 分 布 表 得 六 os (30) 一 43.8。 再 由 样本 观察 值 
算出 
3 re 
本 44. 5>43. 8 一 难 u(30) 

因此 拒绝 原 假设 H。。 这 说 明 在 显著 性 水 平 一 0. 05 下 ， 自 动车 床 工 作 一 段 时 间 
后 精度 变 差 。 








第 1 章 概率 统计 基础 


1.4.3.4 两 个 正 态 总 体 参数 的 假设 检验 

设 两 个 正 态 总 体 X 一 Nu , oji)，Y 一 NG ， 吧 )， 分 别 从 两 个 总 体 中 抽取 容 
量 为 加， 的 两 个 独立 样本 ， 计 算得 样本 均值 分 别 为 x 与 x， (为 了 简便 起 见 ， 
以 后 的 样本 均值 也 用 小 写字 母 元 表示 )， 样 本 方差 分 别 为 Sf 与 S;。 下 面 就 均值 
与 方差 的 差异 性 分 别 予 以 讨论 。 

1， 两 个 正 态 总 体 均 值 差 异性 检验 

检验 目标 是 两 个 总 体 均值 的 差异 性 ， 与 一 个 总 体 假设 类 似 ， 作 出 双 侧 假设 和 
单 侧 假设 如 下 ， 

(DH,: p=pas Hy: pp 

(2) Ho: pp Hi: pp 

(Ho: mpas Hi: p>ps 

对 于 两 个 正 态 总 体 均值 的 假设 检验 ， 表 1. 13 列 出 了 当 妆 , 吕 均 已 知 时 及 用 ， 
到 均 未 知 时 的 检验 法 。 





表 1.13 两 个 独立 总 体 均值 比较 的 检验 和 + 检验 (a 水 平 ) 

检验 方法 Z 检 验 + 检验 

适用 情景 丰 , 吗 已 知 下 , 中 未 知 

原 假 设 H。 j=je SA 或 由 > Mn =p 由 pe 或 jn 三 pe 
备 择 假设 Hi jn pe >pa 或 mn<pe 和 天 /ae mm>/e 或 和 一/ 


|z1—z:| 











t= 
检验 统计 量 Cm—DSttm— DS 1.) 
lz 十 m2 一 2 m nm 
检验 临界 值 C zz 加 tm +r —2) hlm tn —2) 





例 1.15 已 知 放射 强度 服从 正 态 分 布 。 对 甲 、 乙 两 个 放射 污染 区 进行 反射 
强度 测定 ， 从 甲 地 取得 样本 数 为 63， 其 结果 符合 Ni (62. 3，10. 8); 从 乙 地 取得 
样本 数 为 74， 其 结果 符合 正 态 分 布 Na(66.8，13. 3)。 问 甲 、 乙 两 地 放射 污染 强 
度 是 否 相同 ? 

解 ” 依 题 意 ,该 问题 属于 两 个 独立 总 体 均值 比较 的 假设 检验 ， 且 变量 服从 正 
态 分 布 ， 并 ,中 均 已 知 ， 故 采用 正 态 Z 检验 中 的 双 侧 检验 。 

有 关 已 知 条 件 为 : 二 63, Zi 二 62.3, of 二 10.8; my 二 74, zz 
区 三 18.3 





66. 8， 
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则 检测 过 程 为 : 
Ho: 证 二 Ai Hi: pAp2 
检验 统计 量 为 : 
z=la=als 62. 3 一 66.8| -7 59 

取 w 一 0.05， 从 附 表 中 查 出 双 侧 检验 临界 值 C 一 <. 一 1. 960， 显 然 ?二 C， 故 拒绝 
Ho。， 则 甲 、 乙 两 地 放射 污染 强度 显著 不 同 。 

2， 两 个 正 态 总 体 方差 的 差异 性 检验 

假设 两 个 正 态 总 体 均值 y, ，/p 未 知 ， 检 验 两 个 总 体 方差 的 差异 性 。 其 假设 
如 下 : 

(DH,: of=0i; Hi: 天 人 

(2)Ho: ofSoi; Hi: 二 性 

(3)Ho: do; Hi: of<oi 

对 于 上 述 三 种 统计 假设 的 检验 ， 可 以 采用 表 1. 14 给 出 的 下 检验 法 。 








表 1.14 两 个 总 体 方差 的 下 检验 (a 水 平 ) 
检验 方法 双 侧 检验 单 侧 检验 
原 假设 H。 f= noi jo 
备 择 假设 HH fz i> jo 
检验 统计 量 F F=Si/S FE 一 Si/S 下 一 S/S 
炙 四 一 1 而 一 1 而 一 1 
到 一 1 m—l zm—1 


办 
检验 临界 售 Frm—1, m—1), 
F.(m—1, nm—1) Fi-,m—1,n—1) 
Fioa lm—l, m—l) 
拒绝 域 F> Fn 或 F<F-o F>F, F<P-, 


例 1.16 两 种 型 号 脱硫 装置 的 脱硫 效率 十 分 接近 ， 进 行 3 次 重复 试验 后 ， 得 
表 1.15， 根据 表 中 数据 ， 对 两 种 型 号 装置 的 稳定 性 进行 比较 。 


表 1.15 脱硫 装置 的 脱硫 效率 
型 号 1 98 82 96 
型 号 2 92 95 89 
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解 ” 依 题 意 为 两 个 总 体 的 方差 检验 ， 有 关 条 件 已 知 为 : m 一 3，S? 一 76; 
mm 

检验 过 程 为 : 

Ho: f=0; Hi: dz08 
由 于 : Sf 二 S;， 则 检验 统计 量 
时 =76/9=8. 44 

双 侧 检验 临界 值 ，F.o2s (2，2) 二 39. 00， 因 此 不 能 拒绝 H,， 结 论 为 在 0. 05 

显著 性 水 平 下 未 发 现 两 种 设备 的 运转 稳定 性 有 明显 差别 。 


1.4.3.5 总 结 


在 确定 了 参数 检验 之 后 ， 针 对 所 研究 的 问题 本 身 应 选择 具体 的 假设 检验 方 
法 。 常 用 的 假设 检验 方法 总 结 如 下 表 。 














表 1.16 正 态 总 体 参数 的 显著 性 假设 检验 
检验 参数 假设 不 统计 量 分 布 
一 (已 知 ) zp NO, TD 
k= 已 知 Z: Am 
p=pn(F 未 知 ) "和 s(n—1) 
1 mn 
史 一 大 (已 知 ) Pd RO 
体 2 浊 机 
二 成 (未 知 ) z= nl) 
2Z= [zi 一 za | 
=pe (of, 下 已 知 ) Pi NO, D 
CE 
A ja 人 
Nm 
总 血 一 ae(di， 三 未 知 ) | i 
云 一 二 
体 VC 一 DSS 十 一 DSS 





Bi 


到 中 一 中 (ma ， jw 未 知 ) FF 一 癌 Flm—1, nO—1) 





环境 统计 分 析 
34 


LS 沪 关 业 古 六 证 

方差 分 析 (analysis of variance，ANOVA) 由 英国 大 统计 学 家 费 软 尔 在 20 世 
纪 20 年 代 创立 的 。 当 时 他 在 英国 一 个 农业 站 工作 ， 需 要 进行 许多 田间 试验 ， 为 
分 析 试 验 结果 ， 他 发 明了 方差 分 析 法 (于 义 良 ，2002)。 为 纪念 费 葡 尔 ， 方 差分 析 
又 称 下 检验 。 后 来 ANOVA 被 广泛 应 用 于 分 析 心理 学 、 生 物 学 、 环 境 科 学 与 环 
境 工程 和 医药 等 试验 数据 的 分 析 。 从 形式 上 看 ， 方 差分 析 是 比较 多 个 总 体 均值 是 
否 相等 ,但 本 质 上 是 研究 变量 之 间 的 关系 。 方 差分 析 与 回归 分 析 有 许多 相同 之 
处 但 又 存在 本 质 区 别 ， 方差 分 析 主 要 研究 分 类 型 变量 对 数值 型 变量 的 影响 ， 比 
如 它们 之 间 有 没有 关系 、 关 系 的 强度 如 何等 ， 而 回归 分 析 主 要 研究 数值 型 自 变量 


和 数值 型 因 变 量 之 间 的 关系 。 
1.5.1 方差 分 析 概 述 


首先 从 一 个 例子 说 起 : 


例 1.17 某 公司 研究 三 种 内 容 的 广告 宣传 对 某 种 环境 产品 销售 量 的 影响 ， 
他 们 对 其 进行 了 调查 统计 。 经 广告 以 不 同 的 内 容 广泛 宣传 后 ， 按 寄 回 的 广告 上 的 


订购 数 计算 ， 一 年 四 个 季度 的 销售 量 情况 如 下 表 ( 杨 虎 等 ，2006) 。 











表 1.17 某 环境 产品 销售 量 数据 表 
本 季度 
广告 类 型 一 和 
> 二 四 
A 163 176 170 185 173 
As 184 198 179 190 188 
A: 206 191 218 224 210 





表 中 ,广告 Ai 强调 运输 的 方便 性 、A 强调 节省 燃料 的 经 济 性 、 


As 强调 噪 


声 低 的 优良 性 ， 试 判断 广告 的 类 型 对 该 种 环境 产品 的 销售 量 是 否 有 显著 的 影响 ? 
若 有 影响 ， 哪 种 广告 内 容 比较 好 ? 

判断 广告 的 类 型 对 环境 产品 销售 量 是 否 有 显著 的 影响 ， 作 出 这 种 判断 最 终 被 
归结 为 检验 这 三 种 广告 内 容 下 的 环境 产品 销售 量 的 均值 是 否 相等 。 如 果 它 们 相 
等 ， 就 意味 着 “广告 类 型 ”对 销售 量 没 有 影响 ， 也 就 是 各 种 广告 下 销售 量 没有 显 
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著 差 异 ; 如 果 均值 不 相等 ， 则 意味 着 广告 类 型 对 销售 量 是 有 影响 的 。 

为 了 方便 表述 ， 我 们 作 如 下 定义 : 在 方差 分 析 中 ， 所 要 检验 的 对 象 称 为 因素 ; 
因素 的 不 同 表现 称 为 水 平 或 处 理 ， 每 个 因素 水 平 下 得 到 的 样本 数据 称 为 观测 值 。 

上 例 中 ， 广 告 为 因素 ， 广 告 的 三 种 类 型 称 为 水 平 ， 每 个 广告 类 型 下 的 样本 数 
据 为 观测 值 。 我 们 怎样 判断 广告 对 销售 量 有 显著 影响 呢 ? 容易 想到 ， 如 果 广 告 类 
型 对 销售 量 没有 影响 ， 那 么 三 个 样本 可 以 认为 来 自 同 一 个 总 体 N(p， 史 )， 此 处 
4 三 4 三 jw 三 ja， 反之 ， 如 果 广 告 类 型 对 销售 量 有 影响 ， 则 年 ，Mm ，/s 有 显著 差 
异 ， 因 此 ， 我 们 把 问题 转化 为 用 三 个 样本 去 检验 假设 : 

Hy: p=pe 二 pa; Hi: jn， pz， pe 不 全 相等 

从 表 中 看 出 ， 各 样本 均值 之 间 确 实 存 在 差异 ， 那 么 是 否 可 以 说 明 广 告 对 销售 
量 有 显著 影响 呢 ? 不能， 因为 同一 水 平 ( 同 广告 类 型 ) 下 各 试验 数据 之 间 还 有 差 
异 ， 这 显然 是 由 广告 类 型 以 外 的 其 他 随机 影响 引起 的 随机 误差 ， 它 也 会 引起 各 样 
本 均值 之 间 的 差异 。 因 此 ， 问 题 不 在 于 各 种 样本 均值 之 间 是 否 有 差异 ， 而 在 于 这 
种 差异 与 随机 误差 相 比 是 否 显著 偏 大 ， 如 果 是 ， 就 有 理由 认为 广告 类 型 对 销售 量 
有 显著 影响 ， 从 而 否定 H，。 








1.5.2 单 因 素 方 差分 析 


当 方 差分 析 只 涉及 一 个 分 类 型 自 变量 时 ， 称 为 单 因素 方差 分 析 。 例 如 检验 不 
同 广告 销售 量 是 否 相 等 ， 这 里 只 涉及 “广告 类 型 ”一 个 因素 ， 也 就 是 单 因素 方差 
分 析 。 


1.5.2.1 数据 结构 
进行 单 因素 方差 分 析 时 ， 需 要 有 下 面 的 数据 结构 ， 如 表 1. 18 所 示 。 


表 1.18 单 因 素 方差 分 析 的 数据 结构 
观测 值 











C9 
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在 单 因素 分 析 中 ， 用 A 表示 因素 ， 因 素 的 & 个 水 平 ( 总 体 ) 分 别 用 Ai， 
A;，…，Ak 表示 ， 每 个 观测 值 用 xz; 表示 ， 从 不 同 水 平 中 所 抽取 的 样本 容量 ， 可 
以 相等 也 可 以 不 等 。 


1.5.2.2 分 析 步 又 
方差 分 析 步 骤 ( 贾 俊平 ，2005): 
1， 提出 假设 
检验 因素 的 个 水 平 的 均值 是 否 相等 ， 提 出 如 下 形式 的 假设 : 
Ho: =p == = "=p 不 全 相等 


需要 注意 的 是 ， 拒 绝 原 假设 Ho 时， 只 是 表明 至 少 有 两 个 总 体 的 均值 不 相 
等 ， 并 不 意味 着 所 有 的 均值 都 不 相等 。 

2。， 构造 检验 的 统计 量 

(01) 计算 因素 各 水 平 的 均值 。 

假定 从 第 i 个 因素 水 平 总 体 中 抽取 一 个 容量 为 ni 的 样本 ， 令 工 为 第 i 个 因素 
总 体 的 样本 均值 ， 则 有 : 








Re (i=1, 2, **, &) 
式 中 ,为 第 i 个 因素 水 平 总 体 的 样本 观测 个 数 ，zs 为 第 i 个 因素 水 平 总 体 的 第 
j 个 观测 值 。 
(2) 计 算 全 部 观测 值 的 总 平均 值 。 
3 > Da, k 
去 加 一 3 ) 


(3) 计 算 误差 平方 和 。 为 构造 检验 统计 量 ， 在 方差 分 析 中 ， 需要 计算 3 个 误 
差 平方 和 ， 它 们 分 别 是 总 偏差 平方 和 、 水 平 项 误差 平方 和 以 及 误差 平方 和 。 

加 总 偏差 平方 和 ， 简 记 为 SSr， 它 是 全 部 观测 值 zx 与 总 平均 值 的 误差 平 
方 和 ， 反 映 了 全 部 试验 数据 之 间 的 差异 ， 因 此 SSr 又 称 为 总 变 差 。 其 计算 公 
式 为 : 


SS5 = DDD (1. 28) 


@ 水 平 项 误差 平方 和 ， 简 记 为 人 它 是 各 组 平均 值 却 1 与 
总 平均 值 工 的 误差 平方 和 ， 反 映 各 总 体 的 样本 均值 之 间 的 差异 程度 ， 因 此 又 称 为 
组 间 平 方 和 ， 其 计算 公式 为 : 
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SSA = pe —z)*= Dn —Zz) (1.29) 


i=1 j=1 


回 误差 平方 和 ， 简 记 为 SSe， 它 是 每 个 水 平 的 各 样本 数据 与 其 组 平均 值 误差 
的 平方 和 ， 反映 了 每 个 样本 各 观测 值 的 离散 状况 ， 因 此 又 称 为 组 内 平方 和 或 残 差 
平方 和 ， 该 平方 和 反映 的 是 随机 误差 的 大 小 ， 其 计算 公式 为 : 
S55 = > 7(zy 一 五 六 (1. 30) 
上 述 三 个 平方 和 之 间 的 关系 为 : 
SSr 一 SSA 十 SSe (1.31) 
@ 计 算 统计 量 
我 们 知道 ， 各 误差 平方 和 的 大 小 与 观测 值 的 多 少 有 关 。 为 了 消除 观测 值 多 少 
对 误差 平方 和 大 小 的 影响 ， 需 要 将 其 平均 ， 也 就 是 用 各 平方 和 除 以 它们 对 应 的 自 
由 度 ， 这 一 结果 称 为 均 方 。 三 个 平方 和 对 应 的 自由 度 分 别 为 : SSr 的 自由 度 为 
nn 一 1， 其 中 为 全 部 观测 值 的 个 数 ，SS4 的 自由 度 为 一 1， 其 中 为 因素 水 平 的 
个 数 ; SSE 的 自由 度 为 n 一 k。 
SSA 的 均 方 记 为 MS。， 其 计算 公式 为 : 


SSa 
k=l 


SSe 的 均 方 记 为 MSs， 其 计算 公式 为 : 
MSF 一 


MSA 一 





(1. 32) 


3 

n—k 

将 上 述 的 MS 和 MS 进行 对 比 ， 即 得 到 所 需要 的 检验 统计 和 F。 当 HH 为 
真 时 ， 二 者 的 比值 服从 分 子 自由 度 为 一 1， 分 母 自 由 度 为 n 一 的 下 分 布 ， 即 : 


F= 答 :一 F4 一 1， n—k) (1.34) 


(1.33) 


3。 统计 决策 

计算 出 检验 的 统计 量 后 ， 将 统计 量 的 值 下 与 给 定 的 显著 性 水 平 a 的 临界 值 
FF, 进行 比较 ， 从 而 作出 对 原 假设 H, 的 决策 。 

根据 给 定 的 显著 性 水 平 a， 在 下 分 布 表 中 查找 与 分 子 自由 度 df1 一 k 一 1、 分 
母 自由 度 df; 二 n 一 k 相应 的 临界 值 F。(k 一 1，n 一 k)。 若 >F。， 则 拒绝 原 假设 
Ho， 即 j4 二 训 二 … 二 pw 二 … 二 pu 不 成 立 ， 表明 pu (i 二 1，2，…， 上 之 间 的 差异 
是 显著 的 ; 车 二 F,.， 则 不 拒绝 原 假设 H。， 不 能 认为 yi Gi 一 1，2，…，A) 之 间 
有 显著 差异 。 
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表 1.19 单 因 素 方差 分 析 表 
方差 来 源 平方 和 自由 度 均 方 F 值 下 临界 值 
组 间 Ss, Ps MS,— F- 儿 : FChls wh) 
组 内 S56 fe MSe= SS 
总 和 SSr xm 一 1 
1.5.2.3 案例 


例 1.18 为 比较 几 种 不 同类 型 隔音 材料 对 噪声 的 去 除 效 果 ， 分 别 在 相同 条 
件 下 进行 若干 次 重复 试验 ,结果 如 表 1. 20， 问 不 同 材料 对 噪声 衰减 率 是 否 有 明 
显影 响 ? 








表 1.20 不 同类 型 隔音 材料 的 噪声 去 除 效果 
材料 噪声 衰减 率 样本 量 
Ai 0. 140 0.142 0.144 3 
A 0.152 0. 150 0. 156 0. 154 4 
Ay 0.160 0. 158 0.163 0.161 4 
A 0.175 0.173 2 
A 0. 180 0. 184 0. 182 0. 186 4 





解 ” 这 是 一 个 单 因素 试验 ， 其 水 平 数 为 5， 总 样本 数 为 17， 其 统计 假设 为 : 
及,: 5 种 材料 的 隔音 效果 无 明显 差异 ;Hi : 5 种 材料 的 隔音 效果 有 明显 差异 
将 有 关 统 计量 列 入 表 1. 21 中 。 








表 1.21 不 同类 型 隔音 材料 的 样本 统计 量 

材料 A A A A 4 合计 
nm 条 4 4 2 4 17 
E3 0.142 0.153 0.161 0.174 0. 183 0.162 





SSr 一 0. 003 646 
SS =0.003 583 
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SSE=SSr—SS=0. 000 063 
方差 分 析 过 程 见 表 1. 22。 





表 1.22 不 同类 型 隔音 材料 噪声 去 除 效果 的 方差 分 析 
方差 来 源 平方 和 自由 度 均 方 下 值 Fum Fou 
组 间 0.003 583 4 0. 000 896 170. 61 3.26 5.41 
组 内 0. 000 063 12 0. 000 005 25 
总 计 0. 003 646 16 


由 表 1. 22 可 以 看 出 ， 对 于 给 定 的 显著 性 水 平 一 0. 05 或 0.01， 不同 材料 对 
噪声 衰减 率 都 有 明显 影响 。 


1.5.3 双 因 素 方 差分 析 


在 许多 实际 问题 中 ， 往 往 需要 考虑 几 个 因素 对 试验 结果 的 影响 ， 例 如 ， 对 环 
境 产 品 销售 量 的 影响 因素 不 仅 有 广告 ， 可 能 还 有 销售 价格 等 因素 。 双 (多 ) 因 素 方 
差分 析 方法 就 是 研究 两 种 (多 种 因素 对 试验 指标 的 影响 程度 的 分 析 方法 。 

由 于 存在 两 个 因素 对 试验 指标 的 影响 ， 各 个 因素 不 同 水 平 的 搭配 可 能 对 试验 
指标 产生 新 的 影响 ， 这 种 现象 在 统计 上 称 为 交互 效应 。 如 关于 “男性 的 肥胖 比 女 
性 的 肥胖 更 容易 引起 高 血压 ”这 种 说 法 ， 描 述 的 是 超重 状态 下 的 血压 与 性 别 有 
关 ， 反映 了 体重 、 性 别 对 血压 可 能 产生 交互 效应 。 各 因素 是 否 存在 交互 效应 是 多 
因素 方差 分 析 产 生 的 新 问题 ， 反 映 了 单 因素 方差 分 析 与 多 因素 方差 分 析 的 本 质 区 
别 ， 本 书 分 两 种 情况 进行 讨论 :一 种 是 无 交互 作用 的 双 因 素 方差 分 析 ， 另 一 种 是 
有 交互 作用 的 双 因 素 方 差分 析 。 


1.5.3.1 无 交互 作用 的 双 因 素 方差 分 析 


当 方 差分 析 中 涉及 两 种 类 型 自 变 量 时 ， 称 为 双 因 素 方差 分 析 。 

1。 数据 结构 

无 交互 作用 的 双 因 素 方差 分 析 的 数据 结构 ， 如 表 1. 23 所 示 。 由 于 有 两 个 因 
素 ， 因 此 其 中 一 个 因素 安排 在 “ 行 ”的 位 置 ， 称 为 行 因素 ; 另 一 个 因素 安排 在 
“ 列 ” 的 位 置 ， 称 为 列 因 素 。 我 们 设 行 因素 有 A 个 水 平 : 行 1, 行 2,，…, 行 
列 因素 有 个 水 平 : 列 1， 列 2，…， 列 -~。 行 因素 和 列 因素 的 每 一 水 平 都 可 以 拱 
配 成 一 组 ， 观 察 它们 对 试验 指标 的 影响 ， 共 抽取 Xr 个 观测 数据 。 每 一 个 观测 
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值 mi (i=1，2，…，k; j 一 1，2，…， 门 看 作 是 由 行 因素 的 人 个 水 平和 列 因素 的 
7 个 水 平 所 组 成 的 kXr 个 总 体 中 抽取 的 容量 为 1 的 独立 随机 样本 。 这 Ar 个 总 体 
中 的 每 一 个 总 体 都 服从 正 态 分 布 ， 且 有 相同 的 方差 。 











表 1.23 双 因素 方差 分 析 的 数据 结构 
es 列 因素 (7 
列 1 列 1 本 列 
行 1 zn zi Tir 
行 2 zu Xn Ze 
行人 Xu EE Zh A 
平均 值 x x EE 2 工 工 





其 中 云 是 行 因素 的 第 ;个 水 平 下 各 观测 值 的 平均 值 ， 其 计算 公式 为 : 


B32 
未 记忆 一 (i=1, 2, *…, k) 
元 ,是 列 因 素 的 第 7 个 水 平 下 各 观测 值 的 平均 值 ， 其 计算 公式 为 : 





本 


OG=1, 2,%…, h) 
三 是 全 部 kr 个 样本 数据 的 总 平均 值 ， 其 计算 公式 为 : 





2 分 析 步 又 
与 单 因 素 分 析 类 似 ， 双 因素 方差 分 析 也 包括 提出 假设 、 确 定 检验 的 统计 量 、 
决策 分 析 等 步骤 。 
(1) 提 出 假设 
为 了 检验 两 个 因素 的 影响 ， 需 要 对 两 个 因素 分 别提 出 如 下 假设 : 
对 行 因素 提出 的 假设 为 : 
Ho: u =w=*"=w=""*=W; Hi: wli=l1, 2, **» &) 不 全 相等 
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对 列 因 素 提出 的 假设 为 : 
Ha; p=jw=…= 记 = 二 pr; Hi: jw 二 1，2，…, 7) 不 全 相等 

(2) 构 造 检 验 统计 量 

为 了 检验 Ho 是否 成 立 ， 我们 需要 分 别 确定 检验 行 因素 和 列 因 素 的 统计 量 。 
与 单 因 素 方差 分 析 构造 统计 量 的 方法 一 样 ， 也 需要 从 总 误差 平方 和 的 分 解 人 手 。 
总 偏差 平方 和 是 全 部 样本 观测 值 zy (i 二 1，2，…，k; j 王 1，2，…， 7 与 总 的 样 
本 平均 值 的 误差 平方 和 工 ， 记 为 SSr， 即 : 

SS = 立 D(xs—z)’ 


i=1 j=! 








和 he ne 
三 > (Fe 一 2 十 2 —Z)+ DD (zy 一 五 —z) 2) 
rr 人 | = 


各: {ft 
4 

一 r>) (zi 一 Zz): 二 kk pS (zj i i 一 元 ) 十 开 ) 
各 


J™l ie j=l 
(1.35) 
其 中 ， 分 解 后 的 等 式 右边 第 一 项 是 行 因 案 所 六 生 的 识 关 对 几 和 。 记 为 SSe， 即 : 


a DG, 一 万) (1.36) 
AR 记 为 SSc， 即 : 
SSc -DE (1.37) 


第 三 三 项 是 除 行 因素 和 列 因素 之 外 的 剩余 因素 影响 产生 的 误差 平方 和 ， 称 为 随机 误 
差 平方 和 ， 记 为 SSe， 即 : 
SS = 袜 习 必 = 去 一 工 ) 十 邢 )z (1.38) 
上 述 各 平方 和 的 关系 为 : 
SSr=SSk+SSc+SSe (1. 39) 
在 上 述 误差 平方 和 的 基础 上 ， 计 算 均 方 ， 其 中 与 各 误差 平方 和 相对 应 的 自由 
度 分 别 是 : 总 误差 平方 和 SSr 的 自由 度 为 kr 一 1; 行 因素 的 误差 平方 和 SS 的 自 
由 度 为 & 一 1; 列 因素 的 误差 平方 和 SSc 的 自由 度 为 > 一 1; 随机 误差 平方 和 SSE 
的 自由 度 为 (k 一 1) (7 一 1)。 
为 了 构造 检验 统计 量 ， 需 要 计算 下 列 各 均 方 : 
行 因素 的 均 方 ， 记 为 MSr: 


MSs 一 让 (1.40) 
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列 因 素 的 均 方 ， 记 为 MSc: 








MSc=3Se (1.41) 
r—1 
随机 误差 的 均 方 ， 记 为 MSe: 
SSE 
NS 一 Ti (1.42) 
为 了 检验 行 因素 对 因 变量 的 影响 是 否 显著 ,采用 下 面 的 统计 量 : 
Fr 一 多 ~F(k—1, (k—1)(r—1)) (1.43) 
为 了 检验 列 因素 的 影响 是 否 显著 ， 采 用 下 面 的 统计 量 ， 
Fe=Me~F(r— 1，(k 一 1D)(r 一 1D)) (1.44) 


(3) 统 计 决 策 
计算 出 检验 统计 量 后 ， 给 定 的 显著 性 水 平 a 和 两 个 自由 度 ， 查 下 分 布 表 得 到 
相应 的 临界 值 下 。， 然 后 将 Fe，Fc 与 F。 进行 比较 : 
车 Fk 记 F,， 则 拒绝 原 假设 Ho。， 即 w 二 ww 二 … 二 ww 三 … 二 ww 不 成 立 ， 表 明 它 
们 之 间 的 差异 是 显著 的 。 
A, 车 到 二 已 ， 则 拒绝 原 假设 Ho， 即 jn 二 pw 二 … 二 py 二 … 二 pw 不成立， 表明 它 
们 之 间 的 差异 是 显著 的 。 








表 1.24 双 因素 方差 分 析 表 的 结构 

方差 来 源 平方 和 ”自由 度 均 方 F 值 下 的 临界 值 

行 因素 A SSs -1 Msx= 冯 3 Fx= - 檬 Fk—1, 一 Dr 一 D) 
列 因素 有 SSe 盖 1 Msc= 3 Fe—M: Ftr—l, (k—l)(r—1)) 
SSe 

误差 。 SSs (kD(r-l) MSe= 二 ei) 


总 和 SSr kr-l 





3， 案 例 

例 1.19 为 了 提高 某 种 环保 产品 的 合格 率 ， 考 察 原料 用 量 和 来 源 地 对 产品 
合格 率 是 否 有 影响 ， 假 设 原料 来 源 于 三 个 地 方 : 甲 、 乙 、 丙 ， 原 料 的 使 用 量 有 三 
种 方案 : 现 用 量 、 增 加 5%、 增 加 8%。 每 个 水 平 组 合 各 作 一 次 试验 ,得 到 
表 1. 25 的 数据 ， 试 分 析 原 料 用 量 及 来 源 地 对 产品 合格 率 的 影响 是 否 显著 ? 
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表 1.25 数据 表 
环保 产品 合 
二 所 末 表 二 D0 保 产品 合格 率 
Bi( 现 用 量 ) B;( 增 加 5%) B, (增加 8%) 
甲 (Al) 59 70 66 
乙 (4:) 63 74 70 
再 (43) 61 66 71 





解 ” 设 有 两 个 因素 A，B， 它 们 分 别 对 应 于 产品 的 来 源 地 和 原料 用 量 ， 显 然 
因素 A 有 三 个 水 平 A1，As，A:， 因素 B 也 有 三 个 水 平 Bl，B:，Bs， 因 为 各 组 
CA,，B,) 中 只 采样 一 个 数据 ， 组 分 这 种 情况 下 没有 交互 效应 。 采 用 双 因素 方差 分 
析 ， 得 到 方差 分 析 ， 见 表 1. 26。 








表 1.26 双 因素 方差 分 析 表 
方差 来 源 平方 和 自由 度 均 方 下 值 Fou.os (2, 4) 
因素 A 26 2 13 1.86 6.94 
因素 B 146 2 73 10.43 6.94 
误差 28 4 7 
总 和 200 8 





FA 一 1.86 一 Fuu(2，4) 一 6.94， Fo 一 10.43 二 Fuu(2，4) 一 6.94， 即 根据 现 
有 数据 资料 ， 有 95% 的 把 握 推断 原料 来 源 地 对 产品 的 合格 率 影响 不 大 ， 而 原料 
使 用 量 对 合格 率 有 显著 影响 。 
1.5.3.2 有 交互 作用 的 双 因素 方差 分 析 

在 上 面 的 分 析 中 ， 我们 假定 两 个 因素 对 因 变 量 的 影响 是 独立 的 ， 但 如 果 两 个 
因素 搭配 会 对 因 变 量 产生 一 种 新 的 效应 ， 就 需要 考虑 交互 作用 对 因 变 量 的 影响 ， 


这 就 是 有 交互 作用 的 双 因 素 方差 分 析 。 
有 交互 作用 的 双 因 素 方差 分 析 也 需要 提出 假设 、 构 造 检验 的 统计 量 、 决 策 分 
析 等 步 又。 方法 与 上 述 类 似 ， 有 交互 作用 的 双 因素 试验 数据 ， 见 表 1. 27。 
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表 1.27 有 交互 作用 的 双 因 素 试验 数据 表 

Es 列 因素 (7 

行 i 工 

列 1 列 2 世 列 r Wd 

行 1 Te Tm Tle se Tiams Tire Tm, 元 . 
行 2 TB Tim To se Tyr Tem Zs 
行 k To Tim Tl Tamy Ee Te Tom zh 

平均 值 工 ， ER ER es 用 EE: 





其 中 , 设 行 变量 有 个 水 平 ， 列 变量 有 个 水 平 ， 每 个 水 平 交 叉 构 成 一 个 样 
本 ， 每 行 的 样本 容量 合计 为 m; ， 每 列 的 样本 容量 合计 为 m.;; zw 为 对 应 于 行 因 
素 的 第 i 个 水 平和 列 因素 的 第 j 个 水 平 的 第 1 列 的 观测 值 ，z: 为 行 因素 的 第 i 个 
水 平 的 样本 均值 ; 工 ; 为 列 因素 的 第 j 个 水 平 的 样本 均值 ; zx; 为 对 应 于 行 因素 的 
第 i 个 水 平和 列 因素 的 第 j 个 水 平 组 合 的 样本 均值 ; z 为 全 部 个 观测 值 的 总 均 


值 , n = Si 


各 平方 和 的 计算 公式 如 下 ， 
总 偏差 平方 和 (SSr): 
SSr 一 > (za — Zz) (1.45) 
行 变量 平方 和 (SSe) : A 
SS 一 Sa (zi 一 了 (1.46) 
列 变量 平方 和 (SSc); 阅 
SSc = Sm = 2) (1.47) 
交互 作用 平方 和 (SSac): 加 
SSe 一 Em (Ty —z; —z 2)? (1.48) 
误差 平方 和 (SSE): A 


SSE=SSr—SSk—SSc—SSg (1.49) 
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表 1.28 有 交互 作用 的 双 因 素 方差 分 析 表 的 结构 
方差 来 源 平方 和 自由 度 均 方 下 值 下 的 临界 值 
行 因素 ”SS | MSx= 关 和 Fr Falh—1, n—kr) 
列 因素 ”SSc ee MS 一 23 Fe=M: 1 
Ne WO sg _ MS FlCk—Der—l), 
交互 作用 SSw (kD(r-lD) Mse=T ED Fw 一 Ms Et 
误差 ”SSE 一 直 Mss= 
总 和 SSr n—1 





1. 5.4 试验 设计 初步 


试验 设计 已 成 为 数理 统计 的 一 个 重要 分 支 ， 其 数据 分 析 方法 主要 是 方差 分 
析 ， 本 书 主要 介绍 试验 设计 的 一 些 基本 知识 。 


1.5.4.1 完全 随机 化 设计 


收集 样本 数据 的 过 程 称 为 试验 。 收 集 样本 数据 的 计划 称 为 试验 设计 。 试 验 设 
计 研 究 如 何 科学 地 安排 试验 ， 使 我 们 能 用 尽 可 能 少 的 试验 获得 尽 可 能 多 的 信息 。 
把 一 批 实验 对 象 完全 混合 ， 然 后 分 成 若干 组 ， 再 把 各 因素 不 同 水 平 的 组 合作 为 
“处 理 ” 随 机 地 安排 在 这 些 组 上 ， 称 为 完全 随机 化 设计 。 接 受 “ 处 理 ”的 对 象 或 
实体 ， 称 为 试验 单元 或 抽样 单元 。 

例 1.20 ”一 家 环境 保护 公司 利用 氨基 酸 产品 对 废水 进行 回收 利用 ， 研 究 出 
-种 氨基 酸 复合 肥 ， 公 司 需要 研究 不 同 肥料 对 小 麦 产量 的 影响 ， 为 此 选择 了 无 机 
肥 、 普 通 有 机 肥 和 氨基 酸 复合 肥 进 行 比较 ， 需 要 选择 一 些 地 块 ， 在 每 个 地 块 施 等 
量 的 肥料 ， 然 后 获得 产量 数据 ， 进 而 分 析 肥料 对 产量 的 影响 是 否 显著 ， 这 一 过 程 
就 是 试验 设计 的 过 程 。 

这 里 的 “肥料 种 类 ”就 是 试验 因子 或 因素 ， 无 机 肥 、 普 通 有 机 肥 和 氨基 酸 复 
合肥 就 是 因子 的 三 个 不 同 水 平 ， 我 们 称 为 处 理 。 假 定 我 们 选取 3 个 面积 相同 的 地 
块 ， 这 里 的 地 块 就 是 接受 处 理 的 对 象 或 实体 ， 称 为 试验 单元 ， 然 后 将 每 个 品种 随 
机 地 指派 给 其 中 的 一 个 地 块 ， 例 如 无 机 肥 可 以 随机 地 指派 给 地 块 >， 普通 有 机 肥 
可 以 指派 给 地 块 1， 氨 基 酸 复合 肥 指派 给 地 块 3， 这 一 过 程 就 是 随机 化 设计 过 程 。 

完全 随机 化 设计 除 符合 “随机 化 ”过 程 外 ， 还 必须 符合 “可 重复 性 ”原则 ， 
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重复 是 指 在 一 个 试验 4 





每 个 试验 条 件 可 以 “复制 "， 例 如 在 上 面 例子 中 ， 由 于 只 


抽取 了 3 个 地 块 ， 只 能 获得 3 个 产量 数据 ， 对 应 于 每 个 处 理 的 样本 容量 为 1。 为 
获得 更 多 的 数据 ， 必 须 重复 基本 试验 步 又， 例如 抽取 12 个 地 块 ， 将 每 个 处 理 之 
一 随机 地 指派 给 其 中 的 3 个 地 块 ， 这 就 相当 于 重复 做 了 4 次 试验 。 

假定 我 们 通过 上 述 设计 后 得 到 了 如 下 样本 数据 ， 见 表 1. 29。 

















表 1.29 3 种 肥料 在 12 个 地 块 上 的 产量 数据 
类 型 产 : 浅 
无 机 肥 368 349 351 342 
普通 有 机 肥 386 383 370 357 
氨基 酸 复合 肥 351 348 336 331 
要 分 析 肥 料 类 型 对 产量 是 否 有 显著 影响 ， 我 们 用 上 面 介绍 的 单 因素 方差 分 析 
方法 进行 分 析 。 表 1. 30 给 出 了 对 数据 的 分 析 结 果 。 
表 1.30 3 种 肥料 的 方差 分 析 表 
方差 来 源 平方 和 自由 度 均 方 F 值 Fuos 
组 间 2 186 2 1 093 8.42 4.26 
组 内 1 168 9 130 
总 和 3354 11 





由 表 1. 30 的 计算 结果 可 知 ，F>Fo.os， 表 明 肥料 种 类 对 产量 有 显著 影响 。 
1.5.4.2 因子 设计 


假定 除了 关心 肥料 类 型 对 产量 的 影响 外 ， 我 们 还 关心 小 麦 品种 对 产量 的 影 
响 。 这 时 我 们 感 兴 趣 的 因素 有 两 个 ， 为 肥料 类 型 和 小 麦 品种 。 假 定 有 甲 、 乙 两 种 
小 麦 ， 这 样 3 种 肥料 和 2 种 小 麦 的 搭配 共有 3X2 二 6 种 。 如 果 我 们 选择 30 个 地 
块 进行 试验 ， 每 一 种 搭配 可 以 做 5 次 实验 ， 也 就 是 每 个 肥料 种 类 的 样本 容量 为 5。 
这 种 考虑 两 个 因素 (可 推广 到 多 个 因素 ) 的 搭配 试验 设计 称 为 因子 设计 。 

例 1.21 假定 对 3 种 肥料 ，2 个 品种 小 麦 的 因子 试验 取得 了 下 面 的 数据 ， 见 
表 1.31s 

现在 我 们 需要 分 析 小 麦 品种 、 肥 料 类 型 以 及 两 者 交互 作用 对 产量 的 影响 。 采 
用 Excel 中 的 “可 重复 双 因 素 分 析 ” 得 到 下 面 的 输出 结果 ， 见 表 1. 32。 
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由 于 检验 肥料 类 型 的 Fe 二 Fu ， 表 明 肥料 类 型 对 产量 有 显著 影响 ;检验 小 
麦 品种 的 Fe 二 Pu ， 表 明 小 麦 品种 对 产量 有 显著 影响 ; 检验 交互 作用 的 Fi 二 
Fu ， 表 明 不 能 认为 肥料 类 型 和 小 麦 品 种 的 交互 作用 对 产量 有 显著 影响 。 























表 1.31 肥料 类 型 和 小 麦 品种 的 因子 试验 数据 
小 麦 品 
肥料 类 型 dd 

甲 乙 

无 机 肥 81 89 

82 92 

79 87 

81 85 

78 86 

普通 有 机 肥 71 77 

72 81 

72 77 

66 73 

72 79 

氨基 酸 复合 肥 76 89 

79 87 

77 84 

76 87 

78 87 

表 1.32 小 麦 品种 和 肥料 类 型 因子 试验 的 方差 分 析 表 
方差 来 源 平方 和 自由 度 均 方 下 值 F, 
行 因素 560 2 280 54. 37 3.40 
列 因素 480 1 480 93. 20 4.26 
交互 作用 10.4 2 2 1.01 3.40 
误差 123.6 24 5.15 
总 和 1174 29 





从 前 面 讨论 的 单 因素 和 双 因素 试验 均 需 把 每 个 因素 的 各 种 水 平 相互 措 配 逐一 进 
行 ， 这 对 多 因素 试验 来 说 ， 将 意味 着 耗费 大 量 的 人 力 、 物 力 、 财 力 和 时 间 。 比 如 ， 
5 个 因素 ,每 个 因素 取 4 个 水 平 ， 一 一 搭配 需 做 信 二 1 024 次 试验 ,通常 这 是 实际 
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情况 所 不 允许 的 。 因 此 ， 对 于 多 因素 的 试验 ， 有 一 个 科学 安排 试验 的 问题 。 试 验 安 
排 得 好 ， 既 可 以 减少 试验 次 数 ， 又 能 获得 有 效 的 结果 。 正 交 试 验 设 计 就 是 一 种 合理 
安排 多 因素 试验 的 科学 方法 。 有 兴趣 了 解 的 同学 可 以 查阅 相关 的 文献 资料 。 


【思考 题 1】 


1， 举 例 说 明 常用 的 几 个 统计 量 。 

2， 试 述 区 间 估 计 的 意义 ， 说 明 区 间 估计 中 显著 性 水 平 、 置 信 区 间 、 区 间 大 小 、 置 信 系 数 
大 小 的 意义 。 

3. 详 述 假设 检验 的 步骤 。 

4。 试 述 频率 直方 图 和 累积 频率 图 的 步骤 。 

5， 试 述 正 态 分 布 、x 分 布 、z 分 布 、 下 分 布 之 间 的 关系 ， 并 提供 相关 数学 表达 式 的 相互 


6 已 知 某 地 水 体 COD 浓度 六 一 NC(2，3*), 求 COD 浓度 落 在 区 间 (3，9) 的 概率 。 

7， 设 Xi ，X:，…，X, 是 取 自 总 体 X 的 样本 ， 总 体 期 望 ECX) 一 六 未知，a ，a ，…，an 
为 常数 ， 且 ai 二 as 十 "十 a 二 1， 求证: Bex 为 ECX)=p 的 一 个 无 偏 估计 . 

8， 一 台 包 装机 装 净 水 剂 ， 额 定 标 准 重 量 为 500 g。 根据 以 往 经 验 ， 包 装机 实际 装 袋 重量 
服从 正 态 分 布 NUu， 天)， 其 中 m 一 15 g， 为 检验 包装 机 工作 是 否 正常 ， 随 机 抽取 9 袋 ， 称 得 
净 水 剂 重量 (单位 ，g) 数 据 如 下 : 

497, 506, 518, 524, 488, 517, 510, 515, 516 
若 取 显著 性 水 平 a 二 0. 01， 问 这 人 台 包 装机 工作 是 否 正常 ? 

9， 玉 米 重重 服从 正 态 分 布 ， 已 知 种 在 清洁 区 内 玉米 的 平均 穗 重 为 300 g， 随机 抽取 污 灌 
区 内 7 个 玉米 重重 (单位 : g)， 分 别 为 298，290，297，301， 299，297，292。 问 污 灌 对 玉米 
穗 重 是 否 有 显著 影响 ? 

10。 某 城市 在 不 同 季节 、 不 同 地 点 采样 分 析 大 气 中 飘 尘 含量 ， 结 果 见 表 1. 33， 试 分 析 大 
气 中 束 尘 含量 的 时 空 差异 是 否 显著 。 








表 1.33 某 市 大 气 飘 尘 监测 结果 单位: mg/mm 
春季 夏季 秋季 冬季 
市 中 区 0. 620 0. 420 0. 880 1.20 
近郊 区 0.614 0.475 0. 667 农 坟 


远郊 区 0.379 0. 200 0. 540 0.94 
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第 2 章 环境 一 元 线性 回归 分 析 


任何 科学 研究 都 要 揭示 客观 世界 内 在 的 本 质 联系 ， 除 了 要 研究 定性 关系 ， 还 
应 尽 可 能 建立 定量 关系 ， 这 种 定量 关系 常用 模型 (函数 ) 形 式 表现 。 例 如 ， 因 变量 
是 某 点 SO; 的 浓度 ， 自 变量 工 是 排放 源 的 排放 量 ， 通 过 建立 定量 分 析 模 型 ， 如 
yy 三 J/(x)， 即 可 分 析 自 变量 作用 的 大 小 ， 求 得 什么 情况 下 污染 严重 ,什么 情况 下 
污染 较 轻 。 如 果 给 出 未 来 排放 源 的 排放 量 ， 通 过 模型 还 可 以 预测 未 来 该 点 SO 的 
浓度 ， 并 据 此 制定 防治 措施 。 环 境 科学 研究 中 ， 相 当 一 部 分 是 对 环境 问题 进行 分 
析 、 预 测 。 一 元 线性 回归 是 描述 2 个 变量 之 间 统 计 关 系 的 一 种 最 简单 的 统计 分 析 
技术 。 通 过 建立 一 元 线性 回归 模型 我 们 可 以 很 好 地 了 解 回归 分 析 的 统计 思想 并 
解决 实际 环境 问题 。 

本 章 的 主要 内 容 是 : 
一 元 线性 回归 的 建 模 原理 ; 
模型 参数 的 最 小 二 乘 估计 
线性 回归 方程 的 显著 性 检验 ; 
线性 回归 式 的 误差 估计 ; 
可 化 为 一 元 线性 回归 的 曲线 回归 ; 
环境 应 用 。 


2.1.1 变量 间 的 统计 关系 








实际 生活 中 常常 会 遇 到 多 个 变量 在 同一 个 过 程 之 中 ， 它 们 相互 联系 、 相 互 制 
约 的 情形 。 有 的 变量 间 存 在 完全 确定 的 函数 关系 ,例如 圆 面积 与 半径 之 间 有 确定 
的 关系 式 。 还 有 一 些 变量 间 存 在 不 完全 确定 的 关系 ,例如 正常 人 的 血压 和 年 龄 之 
间 有 一 定 关系 。 污 染 物 排放 浓度 与 温度 大 致 成 直线 关系 ,但 不 能 精确 地 表示 出 
来 。 其 实 ,它们 是 随机 变量 (或 至 少 其 中 一 个 是 随机 变量 ) 之 间 的 关系 ， 常 称 为 统 
计 关系 或 相关 关系 。 为 了 深入 了 解 事物 的 本 质 ， 往 往 需 要 寻找 这 些 变量 间 的 依存 
关系 式 。 
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现象 间 的 依存 关系 大 致 可 分 为 两 种 类 型 : 函数 关系 和 统计 关系 ( 何 晓 群 
2003)。 

() 函 数 关系 。 函 数 关 系 是 指 现象 之 间 一 种 严格 的 、 确 定性 的 依存 关系 ， 表 
现 为 某 一 现象 发 生变 化 ， 另 一 现象 也 随 之 发 生变 化 ， 且 有 确定 的 值 与 之 相对 应 。 
例如 ， 银 行 的 1 年 期 存款 利率 为 年 息 1. 98%， 存 入 的 本 金 为 z+， 到 期 本 息 为 y， 
则 y 二 x 十 1. 98%z( 不 考虑 利息 税 ); 再 如 ， 某 种 股票 的 成 交 额 > 与 该 股票 的 成 交 
量 x、 成 交 价格 p 之 间 的 关系 可 以 用 y 二 px 来 表示 ， 这 都 是 函数 关系 。 

(2) 统 计 关系 。 统 计 关系 是 指 客观 现象 之 间 确 实 存在 ， 但 数量 上 不 是 严格 对 
应 的 依存 关系 ， 表 现 为 某 一 现象 的 每 一 数值 ， 可 以 有 另 一 现象 的 若干 数值 与 之 相 
对 应 。 例 如 ， 成 本 的 高 低 与 利润 的 多 少 有 密切 关系 ,但 某 一 确定 的 成 本 与 相对 应 
的 利润 却 是 不 确定 的 。 因 为 影响 利润 的 因素 除 成 本 外 ， 还 有 价格 、 供 求 平衡 、 消 
费 嗜好 以 及 其 他 偶然 因素 等 的 影响 。 

函数 关系 和 统计 关系 既 有 区 别 ， 又 有 联系 。 有 些 函 数 关 系 因 为 观察 或 测量 误 
差 以 及 各 种 随机 因素 的 干扰 等 ， 常 常 通过 统计 关系 表现 出 来 ;而 在 统计 关系 中 
对 其 数量 间 的 规律 性 了 解 得 越 深 刻 ， 统 计 关 系 越 有 可 能 转化 为 函数 关系 或 借助 函 
数 关系 来 表现 。 

统计 关系 规律 性 的 研究 是 统计 学 研究 中 的 主要 对 象 ， 目 前 关于 统计 关系 的 研 
究 已 形成 统计 学 中 两 个 重要 的 分 支 ， 即 相关 分 析 和 回归 分 析 。 

相关 分 析 和 回归 分 析 是 研究 事物 的 相互 关系 、 测 定 它 们 之 间 联 系 的 紧密 程 
度 、 揭 示 其 变化 的 具体 形式 和 规律 性 的 统计 方法 ， 是 构造 各 种 环境 模型 、 进 行 结 
构 分 析 、 政 策 评 价 、 预 测 和 控制 的 重要 工具 。 通 过 相关 分 析 ， 可 以 判断 两 个 或 两 
个 以 上 的 变量 之 间 是 否 存在 相关 关系 、 相 关 关系 的 方向 、 形 态 及 相关 关系 的 密切 
程度 。 回 归 分 析 是 对 具有 相关 关系 现象 间 数 量变 化 的 规律 性 进行 测定 ， 确 立 一 个 
回归 方程 ， 并 对 所 建立 的 回归 方程 的 有 效 性 进行 分 析 和 判断 ， 以 便 进一步 进行 估 
计 和 预测 。 两 者 之 间 既 有 联系 又 有 区 别 。 

(1) 相 关 分 析 和 回归 分 析 之 间 的 联系 

名 理论 和 方法 具有 一 致 性 。 

@ 无 相关 就 无 回归 ， 相 关 程度 越 高 ， 回 归 越 好 。 

图 相关 系数 和 回归 系数 方向 一 致 ， 可 以 互相 推算 。 

(2) 相 关 分 析 和 回归 分 析 之 间 的 区 别 

@ 相 关 分 析 中 工 与 y 对 等 ， 回 归 分 析 中 工 与 y 要 确定 自 变 量 和 因 变量 。 

@ 相 关 分 析 中 z，y 均 为 随机 变量 ， 回 归 分 析 中 只 有 > 为 随机 变量 。 

图 相关 分 析 测 定 相关 程度 和 方向 ， 回 归 分 析 用 回归 模型 进行 预测 和 控制 。 

由 于 相关 分 析 和 回归 分 析 的 研究 侧重 不 同 ， 使 得 它们 的 研究 方法 也 大 不 一 
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样 。 回 归 分 析 已 成 为 环境 统计 分 析 中 应 用 最 活跃 的 分 支 之 一 。 


2.1.2 一 元 线性 回归 模型 











“回归 ”一 词 是 由 英国 生物 学 家 F. Galton(1822 一 1911) 在 研究 人 体 身高 的 遗 
传 问题 时 首先 提出 的 。 根 据 遗 传 学 的 观点 ， 子 辈 的 身高 受 父辈 影响 ， 以 工 记 父辈 
身高 ，y 记 子 辈 身高 。 虽 然 子 辈 身高 一 般 受 父辈 影响 ,但 同样 身高 的 父亲 ， 其 子 
身高 并 不 一 致 。 因 此 ，z 和 > 之 间 存在 一 种 统计 关系 。 一 般 而 言 ， 父 辈 身高 者 ， 
其 子 辈 身高 也 高 。 依 此 推论 ， 祖 祖辈 辈 遗 传 下 来 ， 身 高 必然 向 两 极 分 化 ， 而 事实 
上 并 非 如 此 ， 显 然 有 一 种 力量 将 身高 拉 向 中 心 ， 即 子 辈 的 身高 有 向 中 心 回归 的 特 
点 ,“ 回 归 ” 一 词 即 源 于 此 。 虽 然 这 种 向 中 心 回 归 的 现象 只 是 特定 领域 里 的 结论 ， 
并 不 具有 普遍 性 ， 但 从 它 所 描述 的 关于 z 为 自 变量 ，y 为 不 确定 的 因 变 量 这 种 变 
量 间 的 关系 看 ， 和 我 们 现在 的 回归 含义 是 相同 的 。 不 过 现代 回归 分 析 虽然 沿用 了 
“回归 ”一 词 ， 但 内 容 已 有 很 大 变化 ， 它 是 一 种 应 用 于 许多 领域 的 、 广 泛 的 统计 
分 析 方 法 ， 在 环境 科学 理论 和 实验 研究 中 也 发 挥 着 重要 的 作用 。 

回归 分 析 通 过 一 个 变量 或 一 些 变量 的 变化 来 解释 另 一 变量 的 变化 。 其 主要 内 
容 和 步 又 是 : 首先 ， 根 据 对 问题 的 分 析 判断 ， 将 变量 分 为 自 变量 和 因 变 量 ， 其 
次 ， 设 法 找 出 合适 的 数学 方程 式 ( 即 回归 模型 描述 变量 间 的 关系 ; 由 于 涉及 的 变 
量具 有 不 确定 性 ， 接 着 还 要 对 回归 模型 进行 统计 检验 ; 最 后 ， 利 用 回归 模型 ， 根 
据 自 变量 去 估计 、 预 测 因 变量 。 

回归 有 不 同 种 类 ， 按 照 自 变量 的 个 数 分 ， 有 一 元 回归 和 多 元 回归 。 只 有 一 个 
自 变量 的 叫 一 元 回归 ， 有 两 个 或 两 个 以 上 自 变量 的 叫 多 元 回归 ; 按照 回归 曲线 的 
形态 分 ， 有 线性 (直线 ) 回 归 和 非 线性 (曲线 ) 回 归 。 实 际 分 析 时 应 根据 客观 现象 的 
性 质 、 特 点 、 研 究 目的 和 任务 选取 回归 分 析 的 方法 。 本 节 仅 讨论 一 元 线性 回归 

例 2.1 某 河 流 溶解 氧 浓度 (以 百 万 分 之 一 计 ) 随 着 流动 时 间 而 下 降 ， 现 测 得 
8 组 数据 ， 如 表 2. 1 所 示 。 


表 2.1 河流 中 溶解 氧 浓度 
流动 时 间 z/d 0.5 1.0 1.6 1.8 2.6 3.2 3.8 4.7 
溶解 氧 浪 度 y 0.28 029 0.29 0.18 0.17 0.18 0.10 0.12 











由 表 2. 1 所 示 ， 首 先 根据 表 中 提供 的 数据 ， 画 出 以 流动 时 间 为 横 坐 标 ， 溶 解 
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氧 浓 度 为 纵 坐 标的 散 点 图 (图 2- 1)， 从 散 点 图 上 可 以 很 明显 地 观察 出 各 个 点 都 近 
似 均匀 地 分 布 在 一 条 直线 的 周围 ， 但 是 又 不 完全 在 一 条 直线 上 。 





T T T T T 








1 2 3 4 5 6 
图 2-1 溶解 氧 浓度 随时 间 变 化 曲线 


如 果 流 动 时间 和 溶解 氧 浓 度 之 间 是 线性 相关 关系 ， 则 引起 这 些 点 (x;，yi) 与 
直线 偏离 的 主要 原因 是 实际 测量 过 程 中 存在 的 不 可 控 因 素 。 它 们 影响 了 实验 数 
据 ， 产生 了 一 定 的 误差 。 流 动 时 间 的 实验 数据 和 溶解 氧 浓度 的 实验 数据 可 用 线性 
关系 式 表示 。 

对 于 一 个 实际 问题 ， 通 常 先 将 实测 数据 在 直角 坐标 系 内 描述 成 散 点 图 。 如 果 
实测 点 基本 上 在 一 条 直线 附近 波动 ， 则 自 变量 和 因 变 量 之 间 可 以 用 线性 关系 描 
述 ， 就 可 以 采用 线性 模型 。 经 判断 ， 具 有 线性 关系 的 两 个 变量 y 与 +， 可 构造 一 
元 线性 回归 模型 为 : 


3 一 a 十 br 十 E 
其 中 ,a 与 5 为 模型 参数 ，z 是 自 变 量 ，y 是 因 变 量 ，e 为 随机 误差 项 ,5b 称 为 回 
归 系 数 。 
假定 E(e) 二 0， 有 回归 函数 : 
AZ) 一 下 (y) 一 Q 十 Orz (2.1) 


其 中 ,， 截 距 a 表示 在 没有 自 变 量 z 的 影响 时 ， 其 他 各 种 因素 对 因 变 量 y 的 平均 影 
响 ; 回归 系数 5 表明 自 变量 工 每 变动 一 个 单位 ， 因 变量 > 平均 变动 4 个 单位 。 
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2.1.3 最 小 二 乘法 估计 








4(z) 二 a 十 bz 是 理论 模型 ,表明 z 与 y 变量 之 间 的 平均 变动 关系 ， 而 变量 > 
的 实际 值 应 为 : 
y=(atbri) te=p(z) te 
其 中 ，a, 2 的 确定 如 下 : 为 获得 a, 5 的 估计 ， 需 对 自 变 量 及 与 其 对 应 的 因 变量 
进行 即 次 独立 观测 。 假 设 实测 数据 为 (zi ，w)(i 一 1，2，…，?7D， 即 ; 
Ws Wr HN ng Mg (2. 2) 
pa a et 
确定 采用 线性 模型 后 ， 可 用 线性 关系 式 J(z) 二 a 十 bzx 对 实验 数据 进行 拟 合 。 
如 何 根据 式 (2.2) 中 的 个 实验 数据 来 估计 a，b? 自然 会 想到 ， 要 选择 w，0， 使 
得 xz, 直线 上 对 应 的 值 (zi)==a 十 bzi 与 x; 对 应 的 实测 值 y; 的 误差 i 在 某 种 意义 
下 最 小 。 
= H(z) (i=1, 2, **, n) 
上 式 也 可 以 写 为 : 
y=atbrite (i=1, 2, ,0) (2.3) 
si 称 为 第 i 次 观测 的 随机 误差 ， 设 s 相互 独立 ， 即 Cov(e，sj) 一 0，(， 7 一 1， 
2，…，n) 且 期 望 E(e) 王 0，D(e)= 喧 ，Cov(el，zi) 一 0〈(i 一 1，2，…，7?20)， 所 
以 se 一 N(0,，o) 。 这 就 意味 着 y 的 数学 期 望 是 z 的 线性 函数 ， 而 且 > 一 Na 十 bz， 
0)。 
显然 gs 越 小 ， 方程 对 数据 拟 合 得 越 理想 ,但 6; 有 正 负 之 分 ， 为 避免 正 负 抵 
消 , 可 求 之 [一 pz) 了 一 这 绰 的 最 小 值 。 下 面 采 用 最 小 二 乘法 原则 来 估计 


CD。 


a= = 2 (atbzr) (2.4) 
利用 极 值 法 使 Q 达到 最 小 值 ， 于 是 问题 化 为 解 方程 组 ， 








9 
9- 23 0 (atbzi)]=0 
(2.5) 


3Q——2 > [yx 一 Ce 十 bz 一 
此 方程 组 称 为 正规 方程 组 ， 由 此 方程 组 解 得 ay 0 A ,6 
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解 正规 方程 组 可 得 : 
pe 半 曾 
b= ， 一 y 一 克 (2.6) 


DC —7)’ 
其 中 ,z= 让 如 ,3 一直 思 y， 这 里 元， 了 为 观测 变量 的 均值。 
= 3 {zr—zN(%—y) Les= 也 (zi—x), Ly= 立 (yi—y)? 


则 6 一 二， %=y 一 经 (2.7) 

取 atbz 作 为 u(x)=a 十 bz 的 估计 ,， 记 y=& 十 bz。 

这 样 所 得 方程 y 一 4 十 pz 称 为 经 验 回归 方程 ， 简 称 回归 方程 。 由 于 参数 的 估 
计 结 果 是 通过 最 小 二 乘法 得 到 的 ， 故 称 为 普通 最 小 二 乘 估计 量 Cordinary least 
squares estimators，OLSE) 。 

根据 公式 ， 求 例 2. 1， 可 得 : 

去 二 2 =2.4, 7 二 六 y=1.61X 言 ==0.20 
Le 一 14. 500 0, L,,=—0. 684 0, L,,=0.0407 





由 此 可 得 : 

Ls 

Ls 

这 样 就 得 到 流动 时 间 (z) 和 溶解 氧 浓度 (y) 之 间 的 线性 关系 式 : 
3 一 4 十 pz=0.314 5 一 0.047 2x 


在 很 多 实际 研究 过 程 中 ， 我 们 事先 并 不 知道 变量 之 间 是 否 存在 线性 关系 ， 这 
时 可 以 采用 第 一 节 所 介绍 的 方法 ， 先 将 实验 数据 描绘 成 散 点 图 ， 再 根据 观测 点 是 
否 基本 上 都 在 一 条 直线 附近 来 判断 变量 之 间 是 否 为 线性 关系 ， 最 后 利用 最 小 二 乘 
估计 法 估计 出 a 和 ， 即 可 得 到 经 验 回归 方程 。 为 了 判断 上 述 估计 法 得 到 的 经 验 
回归 方程 是 否 能 够 精确 地 描述 两 个 变量 之 间 的 关系 ， 本 节 将 采用 假设 检验 的 方法 
进行 统计 推断 。 


b=72=—0.047 2, a=y—bz=0. 314 5 
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2.2.1 下 检验 法 


我 们 知道 w( 实 测 值 ) 与 %( 回 归 值 或 计算 值 ) 之 间 之 所 以 有 差异 ， 一 般 是 由 下 
述 两 个 原因 引起 的 : 一 是 当 > 和 zz 之 间 的 确 有 线性 关系 时 ， 由 实验 过 程 中 的 随机 
误差 引起 ; 二 是 当 y 和 zz 之 间 不 存在 线性 关系 而 引起 的 y; 与 y, 之 间 的 不 同 。 

由 于 各 种 原因 引起 因 变 量 的 总 波动 ， 称 之 为 总 偏差 平方 和 ， 用 Ss 表示 。 


Sa 一 员 (yi—y)’ 
= ht 
= ta hh By 
= bp (yi 一 7 十 bp (六 一 3)2 
i1 i=l 
二 Sm 十 Sa 
其 中 ,Sn 一 3 (y; 一 了.)*， 称 为 残 差 平方 和 (或 剩余 平方 和 ); Sa 一 2 (一 
3)2， 称 为 回归 平方 和 1 yi=a+bhzri。 
交叉 乘积 项 : 2 (yi—%) (yi—y)=2 2 (yi—y)%—2 之 (yi 一 多 )3y 





=2 》 (y—3) a+bz)—2 2 (yi 一 六 )3 
i=l iel 


=2 bp (yi—I)at2D > Cyi—3)z—2 2) yy)y 
如 各 | 





由 正规 方程 组 可 知 : (3 30a=01 BD ix D930 
所 以 可 以 得 到 : 2 了》 Cy 一 3) C5 一 5)==0 
这 样 可 得 ， Se 一 Sm 十 Sa 

Sn 二 局 (wy 一 ?7 是 y 的 实际 值 与 回归 值 之 差 的 平方 和 ， 它 是 由 随机 因素 


以 及 测量 误差 引起 的 ， 它 的 大 小 反映 了 测量 误差 及 其 随机 因素 对 y 的 影响 ， 是 总 
偏差 平方 和 中 不 能 被 回归 方程 解释 的 部 分 。 


Sa 一 > (3 一 3)? 是 y 的 回归 值 与 平均 值 之 差 的 平方 和 ， 它 反映 了 自 变量 
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ZI，ZX2，"…，Zh 的 变化 所 引起 的 y 的 波动 。Sa 是 总 偏差 平方 和 中 由 回归 方程 解 
释 的 部 分 。 
如 果 变 量 x 和 yy 之 间 无 线性 关系 ， 则 5 二 0， 这 相当 于 检验 假设 Ho: 5 二 0 
是 否 成 立 。 
在 一 般 的 线性 模型 中 ， 当 假设 H, 为 真 时 ,一切 y 一 N(a,，o*)， 并 且 相 互 独 
立 ， 由 此 容易 得 到 : 





3~N(a, do) E(F)=D(y)—E:(y) = a 
EG)=D(3)—E: (3) = —ar 
所 以 Ese)=E| >) cx 一] 
党 
二 局 一 2 
(加 号 ) 
= 》 EC(yD)—nE(y’) 
i=l 


=n(o —a)—n (do:—a:)=(n—De 


n 
因此 ， 沁 和 是 的 无 偏 估计 量 。 
容易 证 明 ， 在 H, 为 真 时 ， 


yD; 人 各 ~ 加 一 好 GD 


在 Sn，Sa 相互 独立 的 条 件 下 ， 根 据 下 分 布 的 定义 可 知 : 


Rm ~F(l, n=—2) 


下 Sa 

Sm/(n—2) 
这 就 是 用 来 检验 假设 Ho 的 统计 量 ， 按 照 一 般 显著 性 检验 的 程序 ， 在 给 定 显 

著 性 水 平 的 前 提 下 ， 查 F(1，n 一 2) 分 布 表 ， 可 得 临界 值 F.(1，n 一 2)。 


DY DF, nn 一 2)， 则 否定 H。: 5 二 0， 认 为 一 元 线性 回归 式 
可 用 ， 即 变量 和 > 之 间 的 关系 可 以 用 线性 关系 代替 。 
(2) 当 机 < 忆 (1，n 一 2)， 则 接受 HH,: 6 一 0， 认 为 一 元 线性 回归 式 
残 / (7 一 2) 


无 意义 ， 即 变量 zx 和 > 之 间 的 关系 不 能 用 线性 关系 来 代替 。 
根据 例 2. 1， 可 求 得 : 
Se 一 Lw 一 0.040 7, Sa =0.032 3, Sg=Sg—Sa=0.040 7 一 0. 032 3 一 0. 008 4 
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Sa 0.032 3 
网 Sm/(n—2) 0.008 4/6 
当 a==0.05 时 ， 查 下 分 布 表 , 得 到 F, (1; n 一 2)= 二 5.990 0,， 由 于 下 = 
23. 071 4 二 5. 990 0 二 F,(1，n 一 2)， 所 以 y 一 2 十 bz 一 0.314 5 一 0.047 2z 线性 关 
系 显 著 。 


一 23.071 4 


2.2.2 ”相关 系数 检验 法 








上 面 介绍 了 用 于 显著 性 检验 的 下 检验 法 ， 下 面 我 们 将 介绍 另 一 种 用 于 显著 性 
检验 的 方法 一 一 相关 系数 法 。 


因为 Sa 一 局 oo 一 和 一 [一 GHzz 宁 
一 > [n= oa 
= 3 [Cy—y)—b(z—z) 
= > (y—y)—2% > (zi—7)(y—y) tb 2 Ce 
= 3 ee: > er 
一 (yi—y)—P 3 [Co ld 1 
显然 Sa 过 0。 当 Sa 一 0 时 ， 说 明 该 直线 与 实际 情况 完全 吻合 ， 3 与 x 之 间 显 然 是 


线性 关系 ; 但 如 果 出 现 Sa 天 0, 尺 了 (zi 一 ?二 0， 这 时 Sn 二 了 (3, 一):， 
说 明 Sw 的 变化 与 x 无关， 从 而 y 是 平行 于 x 轴 的 直线 ， 因 而 zx 和 y 是 处 于 零 相 
关 ， 也 即 二 和 > 是 不 相关 的 。 在 实际 衡量 y 与 z 之 间 的 相关 性 时 ， 由 于 Sa 与 
是 同一 量 纲 ， 有 时 数值 差别 很 大 也 难以 说 明 拟 合 的 密切 程度 ， 因 此 我 们 必须 寻找 
统一 的 衡量 标准 ， 消 除 量 纲 ， 把 数值 标准 化 。 由 上 述 过 程 的 启发 ， 我 们 可 以 令 ， 
基 交 全 二 天 bY 
7 二 一 各 = 于 一 =1 洋 
2 be 
因为 Lw 三 Sa， 所 以 二 1。 当 一 1 时， 为 完全 相关 ，r 王 0 时 为 零 相 关 。 这 
样 很 容易 得 到 ， 如 果 > 与 x 的 相关 性 较 好 ， 则 Sa 值 较 小 ， 从 而 于 一 1; 如 果 工 
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与 y ba 则 Ss 值 较 大 ， 从 而 一 0。 
因为 ;= 二 ， 所 以 有 : 
pe -2 ne 


oy 
L 下 2 bs /1 
> (yi —y) : Ww La 


因为 = i “二 0， 所 以 ，r 均 与 Lw 同 符号 。 这 样 ， 我 们 找到 了 一 个 无 量 
纲 - 且 能 反映 出 相关 程度 的 相关 系数 。 当 r<0 时 ， 称 为 负 相 关 ; 当 ” 一 0 时 ， 称 
为 正 相 关 。 注 意 ,r 仅仅 反映 +，y 的 样本 间 的 线性 相关 程度 ， 它 是 个 统计 量 。 
若 要 对 总 体 相 关系 数 进行 统计 推断 ， 还 需要 进行 假设 检验 。 
究竟 上 多 大 时 ， 才 可 以 认为 > 与 工 之 间 具 有 显著 的 线性 相关 关系 呢 ? 这 需要 
将 与 其 临界 值 作 比较 ， 利 用 相关 系数 检验 法 对 线性 回归 分 析 进 行 显著 性 检验 ， 
对 于 给 定 的 显著 性 水 平 a。， 由 样本 计算 得 到 一 让 二 
(1) 若 |r| 三 六 (2 一 2 ， 则 认为 线性 回归 是 显著 的 ，> 与 工 之 间 可 以 认为 是 线 
性 相关 关系 。 
(2) 若 |r| 一 ”2 一 2)， 则 认为 线性 回归 不 显著 ，> 与 x 之 间 不 存在 线性 相关 
关系 。 
根据 例 2. 1， 可 以 得 到 : Lv 一 14. 500 0， Lo 一 一 0.684 0，L。 一 0.040 7 
A —0. 684 0 
VE Vi 5000X0.0407 
取 显 著 性 水 平 a==0.05， 按照 自 由 度 n 一 2 二 6 查 相关 系数 表 ， 得 r,(n 一 2) 二 
0.707。 由 于 | > | 二 0. 890 4>>0.707， 故 认为 y 与 x 之 间 的 线性 关系 较 显著 ， 即 
jy 二 @ 十 bx 二 0. 314 5 一 0.047 2z 可 以 表达 y 与 x 之 间 存 在 的 线性 相关 关系 。 显 然 
这 一 检验 结果 与 下 检验 法 的 结果 一 致 。 





一 一 0.890 4 


2.2.3 样本 决定 系数 严 








由 回归 平方 和 与 残 差 平方 和 的 意义 我 们 知道 ， 在 总 偏差 平方 和 中 ， 如 果 回 归 
平方 和 所 占 的 比重 越 大 ， 则 线性 回归 效果 越 好 ; 如 果 残 差 平方 和 所 占 的 比重 大 ， 
则 回归 直线 与 样本 观测 值 拟 合 的 就 不 理想 。 这 里 把 回归 平方 和 与 总 偏差 平方 和 之 
比 定义 为 样本 决定 系数 ， 记 作 必 。 是 一 个 回归 直线 与 样本 观测 值 拟 合 优 度 判定 
的 指标 , 记 的 值 总 在 0 和 1 之 间 。 一 个 线性 回归 模型 如 果 充 分 利用 了 z 的 信息 ， 
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则 顾 越 大 ， 拟 合 优 度 就 越 好 ; 反之 , 车 下 不 大 ， 说 明 模 型 中 给 出 的 工 对 >y 的 信 
息 还 不 够 充分 ， 应 进行 修改 , 使 x 对 y 的 信息 得 到 充分 利用 。 例 如 ， 决 定 系数 
为 : 性 一 0.971 1， 这 说 明 在 y 值 与 y 的 偏差 的 平方 和 中 有 97.11% 可 以 通过 变量 
工 来 解释 。 

在 一 元 线性 回归 中 ， 容 易 证 明 下 检验 法 与 相关 系数 检验 法 其 实质 是 相同 的 ， 
两 者 检验 的 结果 也 是 一 致 的 。 因 此 ， 在 线性 回归 的 显著 性 检验 中 ， 可 以 选择 下 检 
验 法 或 相关 系数 检验 法 。 


2.3.1 线性 回归 式 的 误差 估计 








由 经 验 知 ，y 与 x 之 间 的 线性 关系 显著 时 ， 则 可 以 认为 回归 方程 y=a 十 bz 
反映 了 y 与 x 之 间 的 变化 规律 ， 这 时 可 以 利用 回归 方程 对 > 进行 误差 估计 。 

当 z==zo 时， 相应 的 yo 是 一 个 随机 变量 ， 利 用 回归 方程 对 yo 作 预 测 ，yo 二 
a 十 bxo 就 是 yo 的 一 个 预测 值 ， 这 种 预测 值 称 为 点 预测 。 一 用 来 表示 实际 值 





_ 和 估计 值 之 间 的 误差 。 


设 3)=& 十 bzx 是 由 样本 (xz ，yw)G 一 1，2，…，7) 根 据 式 (2.1) 按 照 最 小 二 乘 
法 估计 的 线性 回归 方程 ，m = 一 a 十 bz 是 当 z 一 zo 时 相应 的 变量 yo 的 估计 量 ， 则 
容易 证 明 : 
一 一 一 一 一 上 "一 2 
1 二 二 十 一 


由 分 布 的 分 位 点 概念 ， 对 于 给 定 的 显著 性 水 平 a， 则 ; 


同上 5 + 十 TE Ee 
Di—7)’ 
总 
其 中 ， 总 体 方差 的 一 个 无 偏 估计 量 # 可 以 通过 如 下 方式 求 得 : 
-»_ Sa Lo 一 六 [= 
人 237 一 
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二 [em ob | 
和 
当 刀 较 大 时 ， 近 似 有 ( 卢 崇 飞 等 ，1988) : 
yw—y~N(0, a) 








故 c 


于 是 ,近似 有 : 

0.952sP(y%—25<y < y+20) 

0. 99~P(y —35<yo< y+30) 
通常 ， 由 回归 方程 计算 的 估计 值 能 够 满足 0.95a<P (yo 一 25 二 yo 二 yo 十 27)， 则 误 
差 可 以 忽略 。 


2.3.2 线性 回归 的 步 又 








通过 以 上 的 介绍 和 具体 分 析 ， 现 在 将 一 元 线性 回归 分 析 的 主要 步骤 作 如 下 总 结 ; 
(1) 设 变量 z 和 > 的 线性 回归 方程 为 y==a 十 bx。 


(2) 求 回归 系数 的 估计 量 a, $5: 2 一 = a=y—bz。 


其 中 ,均值 区 == 十 部 ,5 一 十 加 %， x 偏差 平 方 和 Le = 立地 一 


i=1 


(Bz ,) /ns y 信 关 平 方 和 上 ,一 bE 1 () /n; x，y 乘积 的 偏差 和 工 ,, 二 


Dao- (De) (By). 
(3) 检 验 回 归 系数 5 是 否 为 零 。 
检验 Ho,: 5 二 0 成 立时 ， 令 ; 
S 
F 一 品 JCx 一 太一 FGL， 7 一 2) 
给 定 显著 性 水 平 a， 查 F(1，n 一 2) 分 布 表 ， 可 得 临界 值 F,(1，n 一 2)。 
yr 一 2)， 则 否定 Ho: 5 二 0， 认 为 一 元 线性 回归 式 可 
残 / (7 
S SR 
用 ; na Fl n 一 2)， 则 接受 H,: 5 二 0， 认 为 一 元 线性 回归 式 无 
(4) 求 相关 系数 并 作 相关 性 检验 。 


ww = 
首先 求 得 相关 系数 es 
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检验 方法 如 下 : 
若 | ~ | 三 r,(n 一 2)， 则 线性 回归 是 显著 的 ，y 与 之 间 是 线性 关系 ; 
车 | | 一 二 (一 2)， 则 认为 线性 回归 不 显著 ，>y 与 工 之 间 不 存在 线性 相关 关系 。 


2.4 ”可 化 为 一 元 线性 回归 前 沿线 加 后 EST 

大 量 的 环境 监测 数据 表明 ， 很 多 环境 参数 间 不 成 正比 例 变化 ， 即 不 具有 线性 
相关 性 ， 这 可 以 通过 对 它们 作 线性 相关 性 检验 时 证 明 ， 这 时 应 当 按照 它们 之 间 具 
有 的 曲线 关系 处 理 监测 数据 ( 张 备 威 等 ，1989)。 如 果 因 变量 y 与 自 变量 x 之 间 关 
系 的 散 点 图 已 经 明显 地 星 现 非 线性 关系 ， 或 者 是 线性 回归 假设 检验 后 发 现 它们 不 
是 线性 关系 ， 又 或 者 是 从 专业 的 角度 判断 它们 不 可 能 是 线性 关系 ， 但 y 与 未 知 参 
数 a，6 之 间 的 关系 都 是 线性 的 。 注意， 线性 回归 是 针对 参数 而 言 ， 而 不 是 针对 
自 变量 而 言 。 因 此 ， 有 些 因 变量 y 对 自 变量 z 的 曲线 关系 情形 可 以 通过 变量 代 换 
转换 成 线性 的 形式 。 

具体 思路 是 通过 作 散 点 图 或 定性 分 析 认 为 两 个 变量 之 间 存在 的 相关 关系 为 昌 
线 相关 时 ， 可 上 先 根据 变量 间 不 同类 型 配合 一 条 与 其 相 适应 的 回归 曲线 ， 如 指数 曲 
线 、 双 曲线 等 ， 然 后 再 确定 回归 方程 中 的 未 知 参数 。 对 于 那些 可 线性 化 的 回归 广 
程 ， 对 新 变量 而 言 ， 线 性 化 后 的 方程 者 为 直线 方程 ， 故 其 参数 的 确定 可 用 线性 回 
归 方程 求 参数 的 公 趟 计算 。 

下 面 就 列举 几 个 常用 的 转化 方法 。 














2.4.1 倒数 变换 


(1) 双 曲线 (图 2- 2) 


次 BY 
LN ‘2 a 
(k>0) (k=<0) 
图 2-2 双 曲 线 示意 图 
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反比 例 函 数 二 一 (k¥0, z#¥0, y#0) (2.8) 
令 Y= 荆 ,xz 一 十 ; 则 得 

y 一 Ar 
(2)S 型 曲线 (图 2-3) 

vi E 

3 一直 (atbe*#0) (2.9) 
令 y= 上 ,zx'=e-*, 则 得 

y=atbr’ 


2.4.2 对 数 变 换 


一 般 情况 下 ， 对 于 指数 曲线 、 对 数 曲线 、 竹 函数 曲线 ， 都 用 对 数 变 换 的 方法 
将 曲线 回归 分 析 转 化 为 线性 回归 分 析 。 
(1) 指 数 函数 (图 2 一 4) 





























(b>0) (bp<0) 


图 2-4 指数 函数 曲线 示意 图 
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y=ae” (a>0) (2.10) 
对 其 两 边 取 自然 对 数 ,， 得 In > 一 In ea 十 bz 
令 y= 二 ln y， 则 得 y= 二 ln a 二 br 
(2) 对 数 函 数 (图 2-5) 


By By 


(b>0) (p<0) 
图 2-5 对 数 函数 曲线 示意 图 


y=atblgx (zx>0) (2.11) 
令 x 二 lg z， 则 得 y=a 十 bx 
(3) 短 函数 (图 2- 6) 


Ml 


b>1 b=1 


0<b<1 





图 2-6 罕 函 数 曲 线 示意 图 

3 一 az (a>0, z>0) (2. 12) 
对 上 式 两 边 取 对 数 ， 得 lg > 一 lg a 十 blg 工 
令 y=lgy, x 二 lg zx， 则 得 y= 二 lg a 十 bx” 


2.4.3 混合 变换 


有 的 方程 无 法 用 单一 的 变换 线性 化 ,需要 用 多 种 变换 来 实现 。 例 如 函数 
1/y 一 ce (c>0) 的 线性 化 过 程 就 要 涉及 多 种 变换 。 首 先 令 y 一 1/y， 得 到 y, 一 
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ce”; 再 令 % 一 In yy， 得 到 ys 二 a 十 bx， 其 中 4 二 In c。 这 样 就 通过 两 种 变换 实现 
了 函数 1/y 二 ce”* 的 线性 化 。 


下 面 介绍 几 个 利用 一 元 线性 回归 分 析 来 解决 某 些 实际 环境 应 用 过 程 中 经 常 遇 
到 的 问题 。 

例 2. 2 环境 气象 数据 的 回归 计算 

大 气 环境 污染 问题 中 ， 风 速 往往 是 一 个 重要 因素 。 在 城镇 气象 数据 中 ， 常 可 
从 当地 气象 站 了 解 到 日 平均 风速 ， 而 城镇 街道 距 地 面 2 m 高 空中 的 风速 ， 可 由 气 
象 站 测 得 的 风速 推算 得 到 。 推 算 的 方法 是 ， 预 先 测定 ”对 风速 数据 ， 每 对 风速 由 
日 平均 风速 与 街道 风速 组 成 〈 同 步 数 据 )， 然 后 求 得 这 两 种 风速 间 的 回归 方程 式 ， 
由 回归 方程 式 便 可 推算 得 街道 风速 ( 张 孟 威 等 ，1989) 。 

例如 某 城 镇 实测 的 风速 数据 如 表 2, 2 所 示 ， 试 计算 两 种 风速 间 的 线性 方程 
式 ， 并 作 线 性 相关 性 试验 ， 以 及 计算 残 差 平方 和 。 














表 2.2 风速 监测 数据 单位: m/s 
实验 编号 1 2 3 4 5 6 党 8 9 10 
日 平均 风速 工 9 ZI a Ut wa 6 GU GO 3 C0 
街道 风速 y 30 35 35 40 45 25 40 40 45 5 
实验 编号 二 这 
日 平均 风速 工 0 
街道 风速 y "3 .ly .NE 





解 〈1) 先 作 散 点 图 (图 2- 7)。 

由 图 2-7 可知， 所 有 的 点 基本 上 都 分 布 在 一 条 直线 周围 ， 故 可 以 采用 线性 
回归 分 析 。 

(2) 根 据 表 2. 2 中 的 数据 ， 可 以 得 到 : 


让 者 i 
z 冀 立 二 3.375 0, y 药 关 > 2.665 0 














wo 加 20 
D) z=303.570 0, >) y=178.870 0, 2) ziy;=226. 130 0 
Et Ei 各 


好 
Ly= > (x:—7)(y,—y)= 2) ziyi 一 207y 一 46. 242 5 
si 
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图 2-7 


Ls= >) (一 D2 二 > 好 一 20 了 2 一 75.757 5 
ft 人 


中 2 


L»= > (yi 一 妇 : 一 >) x —20y’=36. 825 5 
is1 





a=y—br=2. 665 0 一 0.610 4X3.375 0=0. 604 9 
所 以 ， 得 到 的 线性 回归 方程 为 ， > 一 a 十 pz 一 0. 604 9 十 0. 610 4z 


(3)Se 一 Lw 一 36. 825 5，Sa 一 28. 226 3，Sa 一 Sa 一 Sa 一 8. 599 2 


Sa -28.2263 _ 


pe TR 


则 FF= 


当 a==0,05 时 ， 查 下 分 布 表 ,得 到 F.(1,，n 一 2)==4. 4 和 1， 由 于 F=59.084 2 二 
4.41 一 F.(1，7 一 2)， 所 以 认为 线性 关系 式 ya 十 bx 二 0. 604 9 十 0. 610 4z 显著 。 


因为 ， L= 一 75.757 5, LL 二 46, 242 5，Lw 王 36.825 5 


3 46. 242 5 
LoL V75.7575X36.8255 








一 0.875 5 





取 显 著 性 水 平 c=0. 05， 按 照 自 由 度 "一 2 一 18 查 相关 系数 检验 表 〈 附 表 2)， 
得 r,(n 一 2)==0. 444。 由 于 | ~ | 一 0. 875 5 过 0. 444， 故 认为 y 与 x 之 间 的 线性 关 
系 较 显 著 ， 即 ?一 4 十 bz 一 0. 604 9 十 0. 610 4z 可 以 表达 y 与 x 之 间 存 在 的 线性 相 


关 关 系 。 显 然 这 一 检验 结果 与 下 检验 法 的 结果 一 致 。 
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例 2.3 一 个 非 线性 回归 的 例子 

架 凝 体 沉降 随时 间 (z) 的 去 除 率 (y) 符 合 指数 函数 > 一 ae" 's(lns 一 N(0， 
中 ))。 现 得 实验 数据 如 表 2. 3( 陈 玉成 等 ，1998) ， 据 此 建立 指数 回归 方程 ， 并 进 
行 检验 。 








表 2.3 絮凝 体 沉降 时 的 去 除 率 
zx/min 5 10 15 20 25 30 60 
y/% 38 51 58 62 64 65 67 





解 (1) 根 据 表 2. 3 的 数据 画 出 散 点 图 (图 2- 8)。 








De 
10 20 30 40 50 60 70 





图 2-8 表 2.3 数 据 的 散 点 图 


(2) 作 变换 。 
对 y=aeh* 两 边 取 自然 对 数 , 得 In y=ln a 十 b* 十 Ine 
令 y 一 In y， zx/= 十 ， 则 得 。” y=A 十 Bz' 二 ee 一 NOO，o)) 
其 中 ， A=Ina, B=b 
记 y=A+Bzx’ 
将 变换 后 的 数据 画 出 散 点 图 (图 2- 9)。 
由 图 2- 9 可知， 所 有 的 点 基本 上 都 分 布 在 一 条 直线 周围 ， 故 可 以 采用 线性 
回归 分 析 。 
(3) 根 据 变换 后 的 数据 ， 采 用 一 元 线性 回归 可 以 得 到 : 
z'=0.072 4, y=4.042 1 
Ly =—0.0747 
Ly =0.023 3 


心 
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3.0700 0.05 0.10 0.15 0.20 0.25 








图 2-9 变换 后 数据 的 散 点 图 


Lyy =0.240 9 


=L—— 
一 性 一 一 3.2108 


A=y' —Bzr’=4.2745 
所 以 得 到 的 线性 回归 方程 为 : y》 二 A 二 Bx 二 4. 274 5 一 3. 210 8x (2.13) 
Sa 一 Lw 一 0.239 8，Sa 一 0.001 1 


则 F= =1 047.187 2 


当 a==0.05 时 ， 查 下 分 布 临 界 值 表 ( 附 表 5), 得 到 F,(1，n 一 2) 二 6. 61， 由 
于 =1 047.187 2>6. 61， 所 以 认为 线性 关系 式 》 二 A 十 Bx 二 4. 274 5 一 3. 210 8zx 
显著 。 
| | 

取 显著 性 水 平 a 二 0.05， 按 照 自由 度 "一 2 一 5 查 相关 系数 检验 表 〈 附 表 2)， 
得 rn 一 2)==0.754。 由 于 |x| 一 0. 997 6 之 0.754， 故 认为 y 与 x' 之 间 的 线性 关 
系 显著 , 即 》=A 十 Bx’ 二 4. 274 5 一 3. 210 8z 可 以 表达 y 与 x 之 间 存在 的 线性 相 
关 关 系 。 显 然 这 一 检验 结果 与 下 检验 法 的 结果 一 致 


将 =In yz = 十 代入 式 (2.13) 得 : 


3 一 71. 846 6e * "8 





Led 一 0.997 6 
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【思考 题 2】 

1、 试 述 变量 间 统 计 关系 和 函数 关系 的 本 质 区 别 。 

2， 试 述 回归 分 析 与 相关 分 析 的 区 别 与 联系 。 

3， 一 元 线性 回归 模型 有 哪些 基本 假定 ? 

4. 一 企业 排水 的 COD 及 BOD 的 结果 见 表 2. 4。 

表 2.4 COD 和 BODs 实测 值 

样品 号 COD BOD; 样品 号 COD BOD; 
1 34.70 15.59 21 89. 64 49. 32 
2 63. 26 49. 80 22 97. 80 40. 01 
3 67. 35 22. 68 23 21.05 10, 83 
本 39. 96 11.43 24 74.04 23. 20 
5 62. 04 11. 80 25 84. 83 35. 00 
6 141. 42 47.90 26 16. 62 
7 47. 84 9. 56 27 61.79 33. 36 
8 75.23 32.36 28 88. 26 28. 08 
9 80. 61 30. 40 29 138. 37 52.93 
10 145.05 85. 08 30 122.77 51. 24 
11 51.80 13.61 31 52.66 17.73 
X2 130.07 75.02 32 92. 20 25. 82 
13 30. 17 6.02 33 145. 74 56. 08 
14 116. 20 73.76 | 34 117. 66 45.04 
15 59. 00 22.08 35 69.01 26.28 
16 52. 86 31. 68 36 79.01 24.82 
2 35. 54 6. 90 37 81.79 38. 40 
18 146. 51 65. 64 38 98. 26 44. 04 
19 94.75 43. 32 49 125. 64 58.43 
20 85. 53 38. 26 40 142. 99 73.68 
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(1) 画 散 点 图 ; 
(2) 判 断 COD 与 BOD; 之 间 是 否 大 致 成 线性 关系 ; 


(3) 用 最 小 


- 乘 估计 求 回归 方程 


(4) 计 算 COD 与 BOD; 的 决定 系数 ; 

《5) 对 回归 方程 作 残 差 图 ， 并 作 分 析 ， 

(6) 计 算 当 COD=99 时 ，BODs 的 值 ; 

(7) 给 出 置信 水 平 为 95% 的 预测 区 间 。 

5， 在 一 项 水 分 渗透 实验 中 ,得 观测 时 间 和 水 的 重量 的 数据 如 表 2. 5 所 示 。 


表 2.5 


观测 时 间 和 水 的 重量 数据 





观测 时 间 z/s 


. 2 4 8 16 32 64 





水 的 重量 y/g 


4.22 4.02 3.85 3.59 3.44 3.02 2.59 





(1) 画 出 散 点 图 ; 

(2) 求 曲线 回归 方程 y> 一 ez 

(3) 对 In y 与 In z 之 间 的 线性 回归 关系 进行 显著 性 检验 = 一 0. 05。 
6， 试 用 一 元 线性 回归 模型 解决 一 个 实际 的 环境 问题 。 
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在 环境 科学 中 ， 经 常 要 研究 多 个 自 变量 对 我 们 关心 的 指标 值 的 影响 ， 一 般 要 
根据 已 知 数据 来 建立 多 个 自 变量 与 指标 值 之 间 的 数量 关系 式 ， 仅 用 一 元 线性 回归 
分 析 方法 是 远 远 不 够 的 。 实 际 应 用 回归 分 析 法 时 ， 常 需要 有 更 一 般 的 模型 ， 把 两 
个 或 更 多 个 解释 变量 的 影响 分 别 估计 在 内 ， 即 多 元 回归 。 当 影响 因素 与 因 变 量 之 
间 是 线性 关系 时 ， 所 进行 的 多 元 回归 分 析 就 是 多 元 线性 回归 ， 即 多 元 线性 回归 是 
研究 一 个 因 变 量 和 多 个 自 变量 之 间 数 量 上 相互 依存 的 线性 关系 。 

本 章 的 主要 内 容 是 : 

多 元 线性 回归 模型 
参数 的 最 小 二 乘 估计 ; 

回归 方程 的 显著 性 检验 ; 

回归 系数 的 显著 性 检验 

Matlab 语言 在 多 元 线性 回归 中 的 应 用 ; 
环境 应 用 。 


多 元 线性 回归 分 析 除了 计算 比 一 元 线性 回归 分 析 复 杂 外 ， 其 他 的 都 同一 元 线 
性 回归 类 似 。 因 此 ， 我 们 可 以 假设 随机 变量 > 与 自 变 量 zi，z，…，zx 之 间 有 
如 下 的 线性 关系 : 


y=b britbrst Tbr te (3.1) 

其 中 ,为 自 变量 的 个 数 ， 为 随机 误差 项 ，b，b; ，*…，bs 称 为 回归 系数 。 对 于 
式 (3.1) 有 如 下 假设 : 

(1) 自 变量 zx 是 确定 性 变量 ,不 是 随机 变量 ， 自 变量 之 间 互 不 相关 。 

(2) 随 机 误差 项 均 具 有 0 均值 和 相同 的 方差 ,可 设 Ele)==0, D(e) 二 0， 
即 e~N(0, o)。 

(3) 随 机 误差 项 之 间 不 存在 序列 相关 关系 ; 随机 误差 项 与 自 变 量 之 间 不 相关 。 

仿照 一 元 线性 回归 中 的 分 析 步 又， 为 了 估计 未 知 系数 bb bs，…，b， 
得 到 经 验 回 归 方 程 : 


71 





环境 统计 分 析 \ 


了 Sb thrit brat br (3.2) 
根据 多 元 线性 关系 式 y= 如 十 Biz1 十 bxz 十 … 十 bez4 十 et 对 (yz Ts， 
zi) 进 行 a 次 独立 的 观测 ， 得 容量 为 n 的 样本 值 ， 这 里 zx 表示 zx 的 第 i 次 观 
测 值 : 
(y», Xas Za, ZE) (i=1, 2, *, n; n>k+1) 
将 上 述 观 测 值 代入 到 式 (3. 1) 中 得 方程 组 : 
功名 十 和 zu 十 zz 十 … 十 pzu 十 el 
男 一 名 十 加 za 十 加 zz 十 … 十 pr 十 ez 





(3.3) 
yn = Thrn Tb rn Tbr en 
如 果 令 : 
Y=(y, yr, yr) 
1 zn zn TIk 
X= 1 za 2 Tok 


1 zu Ze "XT 
B=(b, bi, *, 下) 
8=(€1, €2s *"*, en)" 
则 可 得 : Y 一 XB 十 (3.4) 
这 就 是 式 (3. 3) 的 矩阵 表示 形式 ， 在 以 后 的 分 析 中 主要 通过 它 来 解决 多 元 分 
析 中 的 问题 。 


仿照 一 元 线性 回归 的 参数 估计 最 小 二 乘 方法 ， 对 于 式 (3. 1)， 系 数 bb， ，…， 
bb 应 该 取 这 样 的 估计 值 如 ,六 ，…， 到， 能 够 使 得 观测 值 y; 与 相应 的 回归 值 bo 十 
Bizu 十 ba 十 … 十 bz 的 偏差 平方 和 达到 最 小 ， 即 bo。，b:，…，b 应 该 取 值 使 
函数 : 








Q(bo, bi, *, bi) ST bo—bira—bra—*—bera)’ (3.5) 
达到 最 小 。 按 照 多 元 函数 的 极 值 求法 ， 则 应 使 
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9Q=—2 > (yb bra—bara—"—beza)=0 
vo i=1 








DO YY Se a 
3 为 三 2 2 《入 一 如 一 名 一 bz bera)ra=0 6 


(| 
上 式 即 为 正规 方程 组 。 根据 上 一 节 的 假设 ， 可 以 将 式 (3. 6) 化 成 如 下 的 形式 ， 


mn 十 旺 Zab 十 … 十 六 ZA= 3 a 
六 各 ft 
2 二 D3 开本 十 … 十 2 Ta 一 和 2 Zayi 


一 = 二 Ca 


zabo 十 3 Tazabi 十 … 十 双色 一 3 Lay 
将 式 (3. 7) 表 示 成 矩阵 即 为， 
XXB 二 XY( 其 中 ，X' 为 X 的 转 置 和 矩阵) (3. 8) 
称 X 为 结构 矩阵 ，4 一 X'X 为 正规 方程 组 的 系数 矩阵 ，X'Y 称 为 正规 方程 组 的 党 
数 项 矩阵 。 如 果 系 数 矩 阵 4 可 着 ,那么 下 的 估计 可 以 写成 如 下 形式 ， 
B=(b, be, ba) XXII XY (3.9) 
方程 3 一 亢 十 玉 zi 十 玉 za 十 … 十 和 zx 为 k 元 经验 线性 回归 方程 ， 简称 回归 
方程 。 

例 3.1 为 了 建立 国家 财政 收入 回归 模型 ， 我 们 以 财政 收入 > (单位 ，10" 元 ) 
为 因 变 量 。 自 变量 如 下 : zl 一 一 工业 总 产值 /10 元 ,zs 一 一 农业 总 产值 /10' 元 ， 
建筑 业 总 产值 /10 元 ,zz 人 ， 友 一 一 社会 商品 零售 总 额 / 
10 元 ，zs 一 一 受灾 面积 /10* hm? 。 根 据 《中 国 统计 年 鉴 》 获得 1978 一 1990 年 统 
计数 据 ( 何 晓 群 ，2003)， 见 表 3. 1。 
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表 3.1 影响 国家 财政 的 各 项 指标 及 其 取 值 

年 份 y zi 加 了 x zs zs 

1978 i 4 237 1397 569 96 259 1 558.6 5 076 
1979 1103.3 4 681 1 698 645 97 542 1 800.0 3.987 
1980 1 085.2 5 154 1 923 767 98 705 2 140.0 4 453 
1981 1 089.5 5 400 2 181 747 100 072 2350.0 3 979 
1982 1 124.0 5811 2 483 912 101 654 2 570.0 S13 
1983 1 249.0 6 461 2750 1 035 103 008 2 849.4 3 471 
1984 1 501.9 7617 3214 1 263 104 357 3 376.4 3189 
1985 1 866.4 9716 3619 1 656 105 851 4 350.0 4 437 
1986 2 260.3 11 194 4013 2 038 107 507 4 950.0 4714 
1987 2 386.9 13 813 4 176 2 431 109 300 5 820.0 4 209 
1988 2 628.0 18 224 5865 2 967 111 026 7 440.0 5 087 
1989 2.947.9 22 017 6535 2834 112 704 8 101.4 4 699 
1990 3 244.8 23 851 7 662 3 035 114 333 8 300.1 3 847 


由 定性 分 析 知 ，zl，z:，Zxs，ZX4，zs，xs 都 与 变量 y 有 较 大 的 相关 性 。 因 
设 理论 回归 模型 为 : 
y= bz bret bytytbrtbsrs tbere te (=1, 2, *, 13) 
根据 表 中 的 统计 数据 ， 由 最 小 二 乘法 计算 得 到 未 知 参 数 的 估计 分 别 为 : 

b,=460.030 1; b=0.078 5; b,=0.105 5; b=0, 853 2; 

b=—0. 001 1; b;=—0. 007 8; bs=0.0045 
则 求 得 y 关于 Zz，z;，Zz3，ZK，r;，xs 的 六 元 线性 回归 方程 为 : 
y=460. 030 1 十 0. 078 5zi 十 0. 105 5xs++0. 853 2x3—0. 001 1z,— 
0. 007 8xs +0. 004 5xe 

需要 注意 的 是 这 一 回归 方程 并 不 理想 ,回归 系数 的 经 济 意义 不 好 解释 ， 这 里 
只 是 作为 多 元 线性 回归 参数 估计 的 一 例 ， 后 边 我 们 还 要 对 这 一 模型 作 进一步 
完善 。 


我 们 用 多 元 线性 回归 方程 去 拟 合 随机 变量 y 与 1，zs，…，zxi 之 间 的 关系 ， 
只 是 根据 一 些 定性 分 析 所 作 的 一 些 假设 。 因 此 ， 当 求 出 线性 回归 方程 后 ， 还 需 对 
回归 方程 进行 显著 性 检验 。 实 际 上 ， 多 元 线性 回归 分 析 相 对 于 一 元 线性 回归 分 析 
. 来 说 更 应 该 进行 显著 性 检验 ， 因 为 在 一 元 线性 回归 分 析 中 ， 有 时 我 们 可 以 借助 由 
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实验 数据 建立 的 散 点 图 来 判断 拟 合 的 好 坏 程度 ， 但 是 当 自 变量 的 个 数 比较 多 的 时 
候 ， 我 们 很 难 建立 一 个 直观 的 东西 来 明显 地 描述 自 变量 和 因 变 量 之 间 的 关系 。 因 
此 ， 对 于 多 元 回归 分 析 ， 一定 要 进行 显著 性 检验 。 

下 面 简单 介绍 一 下 两 种 常用 的 统计 检验 方法 ， 一 个 是 拟 合 优 度 检验 ， 男 一 个 
是 下 检验 。 


3.3.1 拟 合 优 度 检验 


拟 合 优 度 检验 是 检验 回归 方程 对 样本 观测 值 的 拟 合 程度 。 

设 y= 加 十 bzi 十 bzzz 十 … 十 bre 十 e 是 所 求 多 元 线性 回归 方程 ，y; 是 第 i 个 
样本 点 (zn， za，…， za) 上 的 回归 值 。 我 们 用 y; 一 y 表示 y 的 第 i 个 观测 值 与 y 
的 样本 平均 值 的 偏差 。 因 为 观测 值 yy ，y:，…，y, 之 间 的 差异 是 由 自 变量 取 值 
的 不 同和 其 他 随机 因素 两 个 方面 引起 的 ， 为 了 知道 这 两 者 之 间 哪 一 个 是 主要 的 ， 
我 们 有 必要 把 y 的 总 偏差 分 解 ， 于 是 总 偏差 平方 和 可 分 解 为 Sa 和 Sm 两 部 
分 。 即 ， 


Sa 一 (yi—y) 
名 


= 8) DD GD 
一 SA 十 Sa 
其 中 ，y 称 为 回归 值 ， 它 是 由 回归 方程 计算 出 的 因 变量 在 第 i 个 样本 点 上 的 取 


值 。Sw 二 了 3 (wy 一 3 称 为 残 差 平方 和 ，Su 一 了 (3 一 7)* 称 为 回归 平方 和 ， 


交叉 项 D3 (yi 一 31)(3i 一 y) 为 零 ， 具 体 原因 同一 元 线性 回归 中 的 分 析 ， 见 第 2 章 


2 

残 差 平方 和 反映 了 自 变量 工 对 因 变 量 y 的 线性 影响 之 外 的 一 切 因素 (包括 x 
对 y 的 非 线 性 影响 和 测量 误差 等 ) 对 因 变 量 y 的 作用 。 回 归 平 方 和 反映 了 总 偏差 
平方 和 中 由 于 xz 与 > 的 线性 关系 而 引起 因 变量 y 变化 的 部 分 。 

由 Sm 和 Sa 的 意义 可 知 ， 一 个 好 的 回归 方程 ， 它 应 该 较 好 地 拟 合 样本 的 观 
测 值 。 总 的 偏差 平方 和 中 ， 回 归 平方 和 所 占 的 比例 越 大 ， 则 线性 回归 效果 越 显 
著 ; 残 差 平方 和 所 占 比 例 越 大 ， 则 线性 回归 效果 就 越 不 显著 。 于 是 定义 如 下 的 系 
数 来 反映 自 变量 与 因 变量 之 间 的 线性 回归 效果 显著 程度 : 


:Sg, ,=, /Su : 
让 /总 (3. 10) 
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其 中 性 称 为 样本 决定 系数 ,r 称 为 y 关于 x!，z。，*…，zh 样本 的 复 相关 系数 。 
与 一 元 线性 回归 方程 中 曾 定 义 过 的 相关 系数 7 一样， 在 多 元 线性 回归 的 实际 应 用 
中 ， 人 们 通常 用 复 相关 系数 ~ 来 表示 回归 方程 对 原 有 数据 拟 合 程度 的 好 坏 ， 衡 量 
作为 一 个 整体 的 xz! ，z。，…，zs 与 y 线性 关系 的 显著 程度 。 


如 果 回 归 方程 完全 拟 合 样本 观测 值 ， 则 : wy 一 y% 一 0 《〈 计 1，2，…，7D。 
由 此 : Sa 一 2 (y 一 妨 * 一 0; = 型 -1 一齐 =1 


完全 拟 合 是 一 种 极端 情况 ， 这 在 实际 问题 的 研究 中 不 大 可 能 出 现 ， 即 ”不 可 能 
等 于 1。 很 容易 理解 ， 如 果 王 越 接近 于 1， 回 归 方 程 的 拟 合 优 度 越 高 。 

类 似 于 一 元 线性 回归 分 析 ， 当 给 定 显著 性 水 平 a 时 ， 由 式 (3.10) 计 算出 x 
值 , 再 根据 相关 系数 检验 表 ( 附 表 2)， 查 出 r, (mn 一 2) 的 值 。 

如 果 7 过 r,(n 一 2)， 则 可 以 认为 多 元 线性 回归 是 显著 的 ; 如 果 rr,(n 一 2)， 
则 可 以 认为 多 元 线性 回归 不 显著 ， 自 变量 和 因 变量 之 间 的 关系 不 能 用 线性 关系 来 
描述 。 

根据 例 3. 1， 给 定 显著 性 水 平 a 二 0.05， 则 : 


Sa 一 >) (y;—»)*=7 320 924. 00 
im1 


Se 一 2 (一 77 一 7 439 339. 00 


: Sa 一 Sa 一 Sg 一 118 415. 60 
则 样本 决定 系数 和 复 相关 系数 分 别 为 : 
2 = 如 一 人 和 和 00 一 0.984 1; r 一 0.9920 
在 显著 性 水 平 a=0.05 下 ， 产 (一 2) 一 六 (11) 一 0. 553。 
由 于 一 0. 992 0 二 0. 553 一 产 (2 一 2) ， 所 以 认为 财政 收入 的 回归 方程 拟 合 优 
度 很 高 。 
在 实际 应 用 中 ,决定 系数 二 到 底 多 大 才 算 通过 了 拟 合 优 度 检验 ， 要 根据 具 
体 情况 来 定 。 在 此 需要 指出 的 是 ， 拟 合 优 度 并 不 是 检验 模型 优 劣 的 唯一 标准 ， 有 
时 为 了 使 模型 在 结构 上 有 较 合理 的 经 济 解释 ， ”二 0.7 左右 我 们 也 对 模型 给 以 肯 
定 。 实 际 上 ， 在 多 元 回归 分 析 中 ，” 与 回归 方程 中 自 变量 的 数目 以 及 样本 容量 ” 
有 关 。 当 样本 容量 的 个 数 与 自 变量 的 个 数 接近 时 ， 易 接近 于 1， 其 中 隐 含 着 一 
些 虚假 成 分 。 因 此 ， 我 们 在 使 用 二 决定 模型 优 劣 时 还 需要 慎重 。 





3.3.2 了 检验 


拟 合 优 度 检验 主要 是 利用 观测 值 和 实际 值 之 间 的 误差 大 小 来 判断 拟 合 的 显著 
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程度 。 下 面 介绍 的 下 检验 ， 主 要 是 通过 对 回归 系数 的 显著 性 检验 来 判断 多 元 线性 
回归 分 析 的 拟 合 程度 。 实 际 上 ， 对 回归 方程 显著 性 检验 ， 就 是 要 看 自 变 量 x ， 
Zz2，*…，Xh 从 整体 上 对 随机 变量 y 是 否 有 明显 的 影响 。 为 此 ， 可 提出 假设 : 
Ho: b=b=*"=b,=0 
如 果 Ho 被 接受 ， 则 表明 随机 变量 y 与 x1!，z，，*…，xi 之 间 的 关系 由 线性 
回归 模型 表示 不 合适 。 类 似 一 元 线性 回归 检验 ， 可 建立 起 多 元 线性 回归 方程 显著 
性 检验 的 下 统计 量 。 





Pg TP n—k—1) (3.11) 
于 是 ,可 利用 下 统计 量 对 回归 方程 的 总 体 显著 性 进行 检验 。 对 于 给 定 的 数据 
Cy za Tes 二 1，2，*…，n; nn 之 k 十 1),， 计 算出 Sm 和 Sm， 进而 得 


到 下 的 值 ， 再 由 给 定 的 显著 性 水 平 a， 查 下 分 布 临界 值 表 附 表 5)， 得 临界 值 
F,(k; n—k—1), 

当 FF,(k，n 一 k 一 1)， 则 拒绝 假设 H。， 认 为 在 显著 性 水 平 a 下 ，y 对 x1， 
zz，*…，zh 有 显著 的 线性 关系 ， 也 即 回归 方程 是 显著 的 ; 反之 ， 则 认为 回归 方 
程 不 显著 。 例 如 ， 给 定 =0.05， 如 果 F 宇 F,(k，n 一 k 一 1)， 则 在 5% 的 显著 性 
水 平 上 ， 应 该 拒绝 H,， 也 即 y 对 zx!，zs，…，zh 有 显著 的 线性 关系 。 

根据 例 3. 1， 在 给 定 显著 性 水 平 a 二 0.05 的 情况 下 ， 可 以 计算 : 


F=, Su/k _ 7320 924.00/6 
Sm/(n—k—1) 118 415.60/6 


当 w=0.05 时 ， 根 据 下 分 布 临界 值 表 〈 附 表 5)， 查 得 F,(k,，n 一 k 一 1) 二 F, 
(6，6) 二 4. 28， 由 于 F 一 61. 824 0 二 4. 28， 所 以 可 以 认为 财政 收入 的 回归 方程 拟 
合 优 度 很 高 ， 这 与 拟 合 优 度 检验 的 结果 一 致 。 


在 多 元 线性 回归 中 ， 回 归 方 程 显著 并 不 意味 着 每 个 自 变量 对 y 的 影响 都 显 
著 。 因 此 应 从 回归 方程 中 剔除 那些 次 要 的 、 可 有 可 无 的 变量 ， 重 新 建立 更 为 简单 
的 回归 方程 ， 所 以 就 需要 对 每 个 自 变 量 进行 显著 性 检验 。 

显然 ， 如 果 某 个 自 变量 zx; 对 y 的 作用 不 显著 ， 那 么 在 回归 模型 中 ， 它 的 系 
数 b; 就 可 以 取 值 为 零 。 因 此 ,检验 变量 xz; 是 否 显著 等 价 于 检验 假设 ，Ho: b 一 
O00i=1, 2, *, &)。 

如 果 没 有 足够 的 理由 否定 假设 H,， 则 通常 认为 x; 不 显著 ; 如 果 拒 绝 假设 ， 
则 zi 显著。 





一 61.824 0 
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bh 
容易 证 明 ， 当 Hi 成立 时: -一 二 一 NO0，1) 。 
容易 证 明 ， 当 HH 成 立时 :人才 一 NO 


在 上 面 假设 下 ,可 采用 pr tb n 一 k 一 1) 进 行 检验 。 其 
中 ,ci 是 矩阵 (XX) 一 对 角 线 上 第 i 个 元 素 ， 可 用 下 来 检验 6 是 否 为 零 ， 即 x 对 
y 的 影响 是 否 显著 。 

根据 例 3. 1， 我 们 已 经 看 到 回归 方程 ; 

y=462. 030 1 十 0. 078 5zi 十 0. 105 5x: 十 0. 853 2z3 一 
0. 001 lx,—0. 307 8zs 十 0.044 5zs 

是 十 分 显著 的 ， 然 而 这 种 显著 是 zi1，zx:，x3，zt，xs，xzs 作为 一 个 整体 变量 对 
因 变 量 y 产生 的 十 分 显著 的 影响 。 每 一 个 自 变量 xz,(i 二 1，2,，…，6) 是 否 对 y 有 
显著 影响 呢 ? 这 就 需 对 假设 日 ,: 二 00i 二 1，2，…，6) 进 行 检验 。 

利用 Matlab 软件 计算 ， 得 关于 妖 (==1，2，…，6) 的 下 统计 量 GG==1，2，…， 
6)， 如 下 : 











Fi=1.076 9, F,=0., 297 4, F,=2.911 9, 
F,=0.035 2, Fs=0.659 7, Fs=0.1608 
查 下 分 布 临界 值 表 ( 附 表 5)， 得 : 
F.(1, n—k—1)=F,(1, 6)=5.99 

上 述 (i==1，2，…，6) 过 F,(1，6) 二 5.99， 即 说 明 每 一 个 zx; 单独 对 因 变 
量 y 无 显著 性 影响 。 这 个 例子 说 明 ， 尽 管 回归 方程 通过 了 显著 性 检验 ， 但 也 会 出 
现 某 些 单个 变量 zx; 对 y 并 不 显著 的 情况 ， 这 也 说 明 变 量 之 间 有 一 定 的 交互 作用 ， 
后 面 将 会 进一步 看 到 不 同 变量 组 合 在 一 起 建立 方程 的 效果 是 不 一 样 的 。 为 了 使 模 
型 简化 些 ， 我 们 可 以 将 对 因 变 量 > 影响 不 显著 的 变量 剔除 ， 然 后 重新 利用 最 小 二 
乘法 建立 回归 方程 。 当 有 多 个 自 变 量 对 因 变 量 y 无 显著 性 影响 时 ， 由 于 的 各 
分 量 间 的 相关 性 ， 不 能 一 次 取消 掉 所 有 不 显著 的 变量 。 原 则 上 每 次 只 剔除 一 个 变 
量 ， 先 剔除 其 中 下 值 最 小 的 一 个 变量 ， 然 后 再 对 求 得 的 新 回归 方程 进行 检验 ， 如 
果 不 显 著 ， 再 剔除 变量 ， 直 到 保留 的 变量 都 对 y 有 显著 性 影响 为 止 。 也 可 根据 对 
问题 的 定性 分 析 选 择 下 值 较 小 的 变量 先 剔 除 。 

例 3.2 财政 收入 一 项 中 ，z 为 人 口 数 ，F, 二 0.035 2<F,(1, 6)=5.99， 
对 财政 收入 的 影响 相对 较 小 ， 故 我 们 剔除 z,， 用 最 小 二 乘法 建立 新 的 回归 方程 : 

y=331. 95 十 0. 085 6zi 十 0. 106 3xz 十 0. 878 4zs 一 0. 342 8zxs 十 0. 056 80ze 
此 时 ,样本 决定 系数 这 二 0. 992 0， 复 相关 系数 r= 二 0. 984 0，F 一 86. 040 8， 经 查 下 
分 布 临界 值 表 〈 附 表 5) 知 ，F,(1, n 一 k 一 1)==F,(1,，7) 二 5.59， 显 然 这 个 线性 
回归 方程 是 高 度 显 著 的 。 
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值得 说 明 的 是 ， 多 元 线性 回归 方程 中 并 非 自 变量 越 多 越 好 ， 是 由 于 自 变 
量 越 多 剩余 标准 差 可 能 变 大 ， 同 时 也 增加 了 收集 资料 的 难度 。 故 需 寻 求 “ 最 佳 ” 
回归 方程 ， 逐 步 回归 分 析 是 寻求 “ 较 佳 ”回归 方程 的 一 种 方法 。 有 关 逐 步 回归 分 
析 方 法 详 见 有 关 参 考 文献 。 


回归 分 析 是 数理 统计 中 最 常用 的 方法 之 一 ， 一 般 用 最 小 二 乘法 确定 回归 方程 
中 的 系数 ， 其 矩阵 计算 过 程 颇 为 复杂 ， 而 用 Matlab 实现 则 使 问题 大 大 简化 。 
Matlab 中 有 四 个 函数 可 以 用 于 回归 分 析 和 拟 合 ，polyfit (xz，y，n)，leastsp 
(/function/，x) ,regress(y，X) 和 pinv(A) * y。polyfit (z，y，7) 只 能 用 于 多 项 
式 线性 回归 ，leastsp(Vfunction/，z) 可 用 来 作 非 线性 回归 ，regress(y，z) 可 用 
于 多 元 线性 回归 ，pinv(A) * y 可 用 于 求解 线性 方程 组 。 

例 3.3 在 一 定 的 温度 下 ， 饱 和 醇 类 化 合 物 的 拓扑 指数 及 保留 指数 值 见 
表 3.2。 求 饱和 醇 类 化 合 物 拓扑 指数 与 保留 指数 之 间 的 关系 。 








表 3.2 醇 类 化 合 物 拓扑 指数 及 保留 指数 数据 表 
Ee 保留 指数 (y) 拓扑 指数 (A) 
编号 醇 
SE30 OV3 OV7 _'x Mp XX Con 

1 1- 丁 本 649 673 701 2.424 0.703 0.275 0.709 
认 1 已 醇 857 882 909 3.415 1.208 0.277 0.709 
3 1- 庚 醇 961 986 1010 3.915 1.456 0.277 0.709 
4 2- 丁 醇 587 608 634 2.271 0.817 0.545 0.579 
5 2- 戊 醇 687 710 734 2.769 0.865 0.543 0,575 
6 3- 戊 醇 687 709 734 2.807 1.393 0.450 0.575 
7 3- 已 醇 784 806 829 3.307 1.477 0.450 0.575 
8 3- 庚 醇 885 907 927 3.807 1.745 0.450 0.575 
9 4- 庚 醇 881 905 925 3.809 1.564 0.452 0.579 
10 2- 甲 基 -2- 丁 醇 629 653 675 2.562 1.061 0.749 0.501 


根据 表 3. 2 中 的 数据 建立 相应 的 M 文件 ，M 文件 中 输入 以 下 代码 说明: 
以 下 代码 格式 为 文件 中 真实 格式 ) 。 
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A= [1 2.424 0.703 0.275 0.709 
1 3.415 1.208 0.277 0.709 
1 3.915 1.456 0.277 0.709 
1 2.271 0.817 0.545 0.579 
1 2.769 0.865 0.543 0.575 
1 2.807 1.393 0.45 0.575 
1 3.307 1.477 0.45 0.575 
1 3.807 1.745 0.45 0.575 
1 3.809 1.564 0.452 0.579 
1 2.562 1.061 0.749 0.501]; 

y= [649 673 701 
857 882 909 
961 986 1010 
587 608 634 
687 710 734 
687 709 734 
784 806 829 
885 907 927 
881 905 925 
629 653 675]; 

b=pinv(A) xy 

得 到 运行 的 结果 为 : 

b= 


一 322.4033 ”一 334. 0991 一 319.6683 
195.3720 。 196.9256 。 192. 2776 
17.8680 17.4884 19.9566 
159. 0413 175. 3433 175. 4272 
628. 9059 667. 1071 701. 3615 
所 以 ， 求 得 的 拟 合 方程 为 ; 
yssa 一 一 322. 403 3 十 195. 372 0!x 十 17. 868 02Xp 十 159. 041 3Gx 一 ?Xx") 十 
628. 905 9Cor 
yov3=—334. 099 1 十 196. 925 61X 十 17. 488 42?Xp 十 175. 343 3(2X 一 2X”) 十 
667. 107 1Cor 


37 一 一 319. 668 3 十 192. 277 6:X 十 19. 956 62Xp 十 175. 427 2(2X 一 2X") 十 


701. 361 5Con 


由 此 可 知 ，Matlab 作为 新 一 代 科 学 和 工程 计算 语言 ， 其 简洁 、 易 操作 性 是 
其 他 类 似 软件 所 不 能 比拟 的 ， 它 应 该 是 我 们 进行 环境 科学 与 环境 
工具 。 鉴 于 Matlab 强大 的 计算 能 力 和 优越 性 ， 在 下 一 节 的 案例 分 析 中 ， 我 们 都 
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将 采取 基于 Matlab 编程 的 方法 来 求解 有 关 问 题 。 


例 3.4 对 某 河 的 主要 排污 沟 进行 调查 监测 ， 详 见 下 表 。 在 监测 中 发 现 该 水 
域 的 总 悬浮 物 (suspended sediment， 简 称 SS) 、COD、BOD 成 正 相 关 ， 试 建立 


BOD 与 SS、COD 的 关系 ， 对 此 进行 多 元 线性 回归 分 析 。 





[ 程 计算 的 首选 





表 3.3 监测 结果 
编号 SS COD BOD 
1 413 45. 60 13. 59 
2 363 37.72 12.78 
3 803 70. 65 26. 29 
4 730 81.47 23.97 
5 823 90. 83 28.09 
6 589 58. 95 18. 06 
7 523 50. 39 17. 84 
8 674 61.50 22.18 
9 984 107.17 34.07 
10 1 369 130. 79 45.89 





根据 表 3. 3 中 的 数据 建立 相应 的 M 文件 ，M 文件 中 输入 以 下 代码 (说明: 


以 下 代码 格式 为 文件 中 真实 格式 ) 。 
A=[1 413 45.60; 1 363 37.72 
1 803 70.65; 1 730 81.47 
1 823 90.83: 1 589 58.95 
1 523 50.39; 1 674 61.50 
1 984 107.17; 1 1369 130.79]; 


y=[13. 59;12. 78;26. 29;23. 97;28. 09;18. 06;17. 84;22. 18;34. 07;45. 89]; 
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C=A’ A= 
1. 0e 十 006 * 
[0.0000 ”0.0073 0.0007 
0.0073 6.0745 0.6105 
0.0007 0.6105 0.0618] 


b=pinv(A) wy 
y=A*b 
得 到 运行 结果 为 : 


b=[—0.5584; 0.0293; 0.0483] 
y=[13. 1 11.8893; 26.3602; 24.7452; 27.9197 
19.5304; 17,1850; 22,1419; 33.4217; 45.8330] 
由 此 得 到 回归 方程 为 : 
BOD= 一 0. 558 4 十 0. 029 3SS 十 0.048 3COD 
回归 方程 的 下 检验 列 于 下 表 : 
Fonlu, ww)=Frn(2, 7)=9.55 








r=0.995 1 
表 3.4 回归 方程 的 检验 结果 
误差 来 源 平方 和 自由 度 w 到 F 显著 性 
回归 908. 121 7 2 0.995 1 711.895 9 高 度 显著 
残 差 4.464 7 % 


总 和 912. 586 4 


可 见 该 回归 方程 的 显著 性 很 好 ， 说 明 该 水 域 的 BOD 指标 受到 SS 和 COD 的 
影响 很 大 。 

例 3.5 洛 河 污染 分 析 

考察 洛 河 在 安乐 窝 一 十 方 院 渡口 段 河水 受 污染 情况 。 考 察 指标 y 表示 BOD 
浓度 。 而 BOD 浓度 > 可 能 与 以 下 几 个 因素 有 关 ( 卢 崇 飞 等 ，1988): zi : 初始 断 
面 BOD 浓度 ; xz;: 初始 断面 氧 亏 浓 度 Cu,; zx;: 水 温 Tx: 河流 流量 g; zx;: 
排污 口 流量 Q，z: 污水 BOD 浓度 !; x;: 流 过 该 河 段 所 需 时 间 1。 
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表 3. 监测 结果 
编号 x zs zy 五 Zs x 五 y 
1 6.88 27.0 674 784 11 232 477 0.083 9.35 
2 6.08 27.5 477 792 11 232 193 0.083 12. 30 
3 2.14 26.0 477 792 11 232 404 0. 083 15. 60 
4 5.02 26.0 856 224 11 232 363 0.073 5.88 
5 7.89 26.0 856 224 11 232 363 0.069 6.34 
6 2.38 15.0 1 490 400 15 552 428 0. 104 4,00 
7 1.86 15.8 1 490 400 15 552 428 0. 104 3.76 
8 1.02 17.1 1 494 720 13 824 428 0. 104 3.98 
9 1.22 17.5 1 494 720 13 824 428 0. 104 3.98 
10 0. 90 17.0 3 628 800 9 936 202 0. 104 2.78 
11 1,58 17.0 3 628 800 9 936 202 0. 104 1.88 
12 2.78 13.5 3265 920 9 936 114 0. 104 2.56 
13 210 13.5 3265 920 9 936 114 0. 104 25 了 2 
14 2.32 14.5 3646 080 8 640 57.3 0.104 1.64 
15 1.96 14.5 3646 080 8 640 57.3 0.104 2.36 


根据 表 3. 5 中 的 数据 建立 相应 的 M 文件 ，M 文件 中 输入 以 下 代码 〈 说 明 : 





以 下 代码 格式 为 文件 中 真实 格式 )。 

A= [1 6.88 一 0.25 27.0 674784 
1 6.08 一 2.21 27.5 477792 
1 2.14 一 3.04 26.0 477792 
1 5.02 一 0.75 26.0 856224 
1 7.89 一 2.26 26.0 856224 
1 2.38 一 1.65 15.0 1490400 
1 1.86 一 1.35 15.8 1490400 
1 1.02 一 2.12 17.1 1494720 
1 1.22 一 1.92 17.5 1494720 
1 0.90 一 0.27 17.0 3628800 
1 1.58 一 0.09 17.0 3628800 
1 和 .78 一 117 13.5 3265920 
1 2.10 —1.30 13.5 3265920 
1 2.32 一 0.60 14.5 3646080 
1 1.96 一 0.60 14.5 3646080 


11232 
11232 
11232 
11232 
11232 
15552 
15552 
13824 
13824 
9936 
9936 
9936 
9936 
8640 
8640 


477 0.083 
193 0.083 
A404 0.083 
363 0.073 
363 0.069 
428 0.104 
428 0.104 
428 0.104 
428 0.104 
202 0.104 
202 0.104 
114 0.104 
114 0.104 
57.3 0.104 


57.3 0.104]; 
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y= [9.35 得 到 运行 结果 为 : y 一 8. 5835 
12.30 Oh 12.7210 
15.60 13. 4341 
5.88 ee 6.9164 
6.34 中 全 全 6. 9289 
4.00 i 2.3714 
3.76 os 2.6814 
3.98 = 6. 2229 
3.98 2 6.1743 
2.78 2. 3401 

1.88 1.9171 
2.56 1. 8898 
2.72 2. 2553 
1. 64 2. 2898 
2.36]; 2.4042 


b=pinv(A)*y 
y=A*b 
由 此 得 到 回归 方程 为 : 
3 一 一 9. 210 0—0. 317 9zi 一 1. 149 0z;++0.611 7zs 一 0.000 0z—0.000 9zs 一 
0. 002 7zs 十 202. 491 Sx 








回归 方程 的 检验 列 于 下 表 : 
表 3.6 回归 方程 的 检验 结果 
误差 来 源 平方 和 自由 度 机 显著 性 
回归 212. 875 4 7 0.9070 显著 
残 差 21.822 4 到 
总 和 234.697 8 
【思考 题 3】 


1。 多 元 线性 回归 模型 有 哪些 基本 假定 ? 

2. 表 3.7 是 某 湖区 历年 实测 的 湖水 污染 物 COD 浓度 与 相应 的 环境 自然 经 济 资料 。 根 据 
专业 经 验 分 析 ， 认 为 湖泊 水 质 污染 浓度 的 高 低 ， 一 方面 取决 于 沿 湖 地 区 工农 业 生产 发 展 所 排 
放 的 污染 物质 的 数量 ， 另 一 方面 与 湖泊 水 文 状况 有 关 。 试 用 多 元 线性 回归 分 析 方法 研究 湖泊 
水 质 污染 预测 问题 ， 说 明 其 规律 ， 并 分 析 各 因子 的 贡献 大 小 ( 陈 玉 成 等 ，1998) 。 
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表 3.7 湖泊 影响 因子 及 其 监测 值 
项 目 CoD 浓度 农业 产量 工业 总 产值 湖泊 水 位 
年 份 mg Ll) x/(5X10' kg) zz/10 元 Ti/m 
1960 2.50 0.25 4.00 3.17 
1975 2.63 0.92 21.10 3. 24 
1976 3.15 0.87 29. 10 3.02 
1977 2.52 0.60 33. 00 3.24 
1978 4.06 0.63 37. 50 2.63 
1979 3.72 0.65 42. 40 2.80 
1980 2.82 0.42 49, 25 3.85 
1981 3.31 0.40 50. 00 2.97 


3. 根据 统计 资料 显示 ( 表 3. 8)， 影 响 铁 路 旅客 周转 量 的 可 能 因素 有 : 铁路 运营 里 程 、 铁 
路 客车 数量 、 公 路 通车 里 程 (有 等 级 公路 )、 公 路 客车 数量 。 试 建立 铁路 旅客 周转 量 的 多 元 线 





性 回归 模型 。 
表 3.8 影响 铁路 旅客 周转 量 的 可 能 因素 及 其 测定 值 
年 份 铁路 旅客 周转 量 铁路 客车 数量 铁路 运营 里 程 ”公路 通车 里 程 。 公路 客车 
/010" 人 .km) / 辆 /10' km /10' km /10: 辆 
1986 2 583 22 138 5.25 63.77 96. 61 
1987 1 840 23 474 5.26 66. 84 111.46 
1988 3 257 24 917 5. 28 69.73 130.38 
1989 3 034 26 304 5.32 71. 69 146. 43 
1990 2 610 27 261 5.34 74.11 162. 19 
1991 2 825 27 612 5.34 76.47 185. 24 
1992 3 148 28 464 5.36 78. 69 226. 16 
1993 3 479 29 645 5.38 82.21 285. 98 
1994 3 633 31 268 5.40 86. 14 349.74 
1995 3 543 32 663 5.46 91.08 417. 90 
1996 3 322 33 778 5.67 94. 81 488. 02 
1997 3 544 34 346 5.76 99.75 580. 56 
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4， 表 3.9 给 出 了 出 厂 水 浊 度 (y) 与 净化 药剂 投 加 量 采用 耗 矶 率 zx ) 、 原 水 浊 度 (zy) 之 间 
的 关系 。 

(计算 出 y，z1 ,zs 的 相关 系数 矩阵 : 

(2) 求 y 与 1，z; 的 二 元 线性 回归 方程 ; 

(3) 对 所 求 得 的 回归 方程 作 拟 合 优 度 检 验 ， 并 对 回归 方程 和 每 一 个 回归 系数 作 显 著 性 
检验 。 








表 3.9 统计 数据 表 
时 间 耗 矶 率 /(kg。(1070) 原水 浊 度 出 厂 水 浊 度 
6 月 2 日 14.2 57 0.17 
6 月 3 日 13.6 52 0.23 
6 月 4 日 13.8 47 0, 24 
6 月 5 日 15.2 47 0.18 
6 月 6 日 15.0 45 0.18 
6 月 7 日 14.5 41 0.21 
6 月 8 日 15.1 42 0. 21 
6 月 9 日 14.8 39 0.20 
6 月 10 日 15.2 44 0.18 
6 月 11 日 14.6 58 0.13 
6 月 12 日 15.0 72 0.13 
6 月 13 日 15.5 88 0.14 
6 月 14 日 15.3 87 0.14 
6 月 15 晶 15.3 86 0.13 
6 月 16 日 14.8 112 0.14 


5。 试 用 多 元 线性 回归 模型 预测 一 个 实际 的 环境 问题 。 
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第 4 章 ”环境 系统 聚 类 分 析 


“ 物 以 类 聚 "， 分 类 是 许多 学 科 领 域 的 重要 内 容 。 日 常生 活 和 实践 中 ， 我 们 常 
常 把 所 接触 、 研 究 的 对 象 ， 按 照 它们 的 性 质 、 用 途 等 分 成 几 类 。 例 如 ， 地 质 勘 探 
中 ， 要 按照 矿石 标本 的 颜色 、 上 比重 和 化 学 成 分 等 特性 将 矿石 分 成 很 多 不 同 的 类 
别 ; 气象 学 中 ， 常 需要 按照 大 气 环流 的 不 同 ， 将 大 气 形式 分 成 若干 环流 型 ;在 水 
环境 评价 中 ， 常 根据 水 质 污染 水 平 的 不 同 ， 把 水 域 分 成 若干 类 型 。 随 着 环境 科学 
自动 化 分 析 技 术 的 迅速 普及 ， 环 境 问题 如 何 归 类 和 分 析 已 成 为 环境 科学 的 一 项 重 
要 课题 。 在 环境 数据 分 类 中 ， 这 种 按 确定 的 标准 对 客观 事物 进行 分 级 、 分 类 的 数 
学 方法 称 为 环境 聚 类 分 析 。 

系统 聚 类 分 析 (hierarchical cluster analysis) 是 环境 聚 类 分 析 中 应 用 较 广泛 的 
一 种 方法 ， 凡 是 具有 数值 特征 的 变量 和 样本 都 可 以 采用 系统 聚 类 分 析 法 。 其 基本 
原理 是 根据 样本 自身 的 属性 ， 用 数学 方法 按照 某 种 相似 性 或 差异 性 指标 ， 定 量 地 
确定 样本 之 间 的 亲 足 关 系 ， 并 按 这 种 亲疏 关系 程度 对 样本 进行 聚 类 。 

本 章 的 主要 内 容 是 : 

聚 类 分 析 概 述 ; 

聚 类 要 素 的 数据 处 理 ; 
距离 和 相似 系数 的 计算 ; 
系统 聚 类 分 析 的 常用 方法 
环境 应 用 。 


聚 类 (cluster) 就 是 按照 事物 间 的 相似 性 进行 区 分 和 分 类 的 过 程 ， 在 这 一 过 程 
中 没有 教师 指导 ， 因 此 是 一 种 无 监督 的 分 类 。 聚 类 分 析 (cluster analysis) 又 称 点 
群 分 析 、 群 分 析 、 簇 分 析 等 ， 它 是 研究 样本 (或 指标 ) 分 类 问题 的 一 种 统计 分 析 方 
法 。 聚 类 分 析 起 源 于 分 类 学 ， 在 古老 的 分 类 学 中 ， 人 们 主要 依靠 经 验 和 专业 知识 
来 实现 分 类 ， 很 少 利 用 数学 工具 进行 定量 的 分 类 。 随 着 人 类 科学 技术 的 发 展 ， 对 
分 类 的 要 求 越 来 越 高 ， 以 致 有 时 仅 凭 经 验 和 专业 知识 难以 确切 地 进行 分 类 ， 于 是 
人 们 逐渐 地 把 数学 工具 引用 到 了 分 类 学 中 ,形成 了 数值 分 类 学 ， 之 后 又 将 多 元 分 
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析 的 技术 引入 到 数值 分 类 学 中 ， 形 成 了 聚 类 分 析 。 聚 类 分 析 内 容 非常 丰富 ， 有 系 
统 聚 类 法 、 有 序 样本 聚 类 法 、 动 态 聚 类 法 、 图 论 聚 类 法 、 聚 类 预报 法 等 。 

聚 类 分 析 的 基本 思想 是 认为 我 们 所 研究 的 样本 或 指标 (变量 ) 之 间 存在 着 某 种 
程度 的 相似 性 ( 亲 疏 关系 )。 首 先 ， 将 要 归 类 的 nn 个 样本 各 自 看 成 一 类 ， 然 后 按 事 
先 规定 好 的 方法 计算 各 类 之 间 的 归 类 指数 (如 某 种 相关 系数 或 距离 )， 根 据 指数 大 
小 衡量 两 两 之 间 的 密切 程度 ， 将 关系 最 密切 的 两 类 并 成 一 类 ， 其 余 不 变 ， 即 得 n 
一 1 类， 又 按 事 先 规定 的 方法 重新 计算 各 类 之 间 的 归 类 指数 ( 仍 为 某 种 相关 系数 
或 距离 )， 又 将 关系 最 密切 的 两 类 并 成 一 类 ， 其 余 不 变 ， 即 得 "一 2 类 ; 如 此 进行 
下 去 ， 每 归 类 一 次 都 减少 一 类 ， 直 至 最 后 ，n 个 变量 都 归 成 一 类 为 止 。 这 一 归 类 
过 程 可 以 用 一 张 聚 类 图 形象 地 表示 出 来 。 聚 类 分 析 诸多 方法 中 最 常用 、 最 基本 的 
一 种 是 系统 聚 类 分 析 。 

通常 还 将 聚 类 分 析 根 据 分 类 对 象 的 不 同 分 为 Q 型 和 R 型 两 大 类 。Q 型 是 对 
样本 进行 分 类 处 理 ( 如 解剖 学 上 依据 骨骼 的 形状 和 大 小 等 ， 不 仅 可 以 区 别 样本 是 
人 还 是 猿 ， 还 可 以 区 别 性 别 、 年 龄 等 )，R 型 是 对 变量 进行 分 类 处 理 ( 如 在 儿童 的 
生长 发 育 研究 中 ， 把 以 形态 学 为 主 的 指标 归于 一 类 ， 以 机 能 为 主 的 指标 归于 另 一 
类 等 )。 常 用 的 聚 类 统计 量 有 距离 系数 和 相似 系数 两 类 。 距 离 系数 一 般 用 于 对 样 
本 分 类 ， 而 相似 系数 一 般 用 于 对 变量 聚 类 。 

Q 型 聚 类 分 析 的 特点 是 : 〈1) 可 以 综合 利用 多 个 变量 的 信息 对 样本 进行 分 类 ; 
52) 分 类 结果 是 直观 的 ， 聚 类 谱系 图 非常 清晰 地 表达 出 其 数值 分 类 的 结果 。 

R 型 聚 类 分 析 的 特点 是 : (1) 不 但 可 以 了 解 个 别 变 量 之 间 的 亲政 程度 ， 而 且 
可 以 了 解 各 个 变量 组 合 之 间 的 亲 玻 程度 ; 2) 根据 变量 的 分 类 结果 以 及 它们 之 间 
的 关系 ， 可 以 选择 主要 变量 进行 回归 分 析 或 Q 型 聚 类 分 析 。 


在 系统 聚 类 分 析 中 ， 聚 类 要 素 的 选择 是 十 分 重要 的 ， 它 直接 影响 分 类 结果 的 
准确 性 和 可 靠 性 。 在 环境 科学 研究 中 ， 被 聚 类 的 对 象 通常 是 多 个 要 素 构成 的 ， 不 
同 要 素 往往 具有 不 同 的 单位 和 量 纲 ， 因 而 其 数值 的 差异 可 能 很 大 ， 这 就 会 对 分 类 
结果 产生 影响 。 因 此 ， 当 分 类 对 象 确定 后 ， 在 进行 系统 聚 类 分 析 之 前 ， 还 要 对 聚 
类 要 素 进行 数据 处 理 。 值 得 注意 的 是 ， 聚 类 要 素数 据 矩阵 中 ， 一 般 行 表示 样本 ， 
列表 示 变 量 (指标) 。 

在 聚 类 分 析 中 ， 常 用 的 聚 类 要 素 的 数据 处 理 方法 主要 有 : 总 和 标准 化 、 标 准 
差 标准 化 、 极 大 值 标准 化 、 极 差 标准 化 等 。 
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例 4.1 以 长 江 流域 水 环境 数据 为 例 ，1993 年 1 月 份 6 个 站 点 水 环境 监测 指 
标 实测 值 如 表 4. 1 所 示 。 














表 41 1993 年 1 月 份 各 站 点 水 环境 监测 指标 实测 值 ”单位 : mg/L 

各 站 点 . 

溶解 氧 高 锰 酸 盐 指数 BOD， NHN 挥发 酚 
攀枝花 10.0 0.8 2.0 0.10 0.003 
高 场 10.5 1.3 1.8 0.16 0. 002 
津 市 10.4 1.9 站 0.16 0.003 
长 沙 8.8 2 1.1 0.72 0. 002 
中 山 桥 13.0 条 5 公 于 0. 30 0.019 
宣 城 13.4 2.3 2.4 0.02 0.005 





(1) 总 和 标准 化 : 分 别 求 出 各 聚 类 要 素 所 对 应 的 数据 的 总 和 ， 以 各 要 素 的 数 
据 除 以 该 要 素数 据 的 总 和 ， 即 : 


= t=, 2 wo my jl, 2 in) (4.1) 
lg 
各 
且 Dz =1 OG=1, 2, %, 站 


1 
其 中 ，zy 为 总 和 标准 化 后 的 数据 ; zy 表示 第 i 样本 的 第 j 个 指标 。 
表 4.1 数 据 经 总 和 标准 化 处 理 后 ， 得 到 如 表 4. 2 中 所 列 的 数据 。 
在 Matlab 环境 下 程序 〈 说 明 : 文字 格式 为 程序 中 真实 格式 ) 为 : 
x=[10.0 0.8 2.0 0.10 0.003; 10.5 1.3 1.8 0.16 0.002; 
10.4 1.9 1.2 0.16 0.003; 8.8 2.3 1.1 0.72 0.002; 
13.0 3.5 2.9 0.30 0.019; 13.4 2.3 2.4 0.02 0.005] 
xxl 一 zeros(6,5); 
for i=1:6 
for j=1:5 
t=sum(x,1); 
xxl (ij) 一 x(iyj)/tGj); 
end 
end 


Xx] 
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其 中 ，z 为 标准 化 前 的 数据 ，zzl 为 总 和 标准 化 处 理 后 的 数据 。 








表 4.2 总 和 标准 化 变换 结果 

各 站 点 到 ee 

溶解 氧 高 锰 酸 盐 指 数 BOD: NHA-N 挥发 酚 
攀枝花 0.1513 0.066 1 0. 175 4 0.068 5 0.088 2 
高 场 0.158 9 0.107 4 0.1579 0.1096 0.058 8 
津 市 0.157 3 0.1570 0.1053 0.1096 0.088 2 
长 沙 0.133 1 0.1901 0.096 5 0.493 2 0.058 8 
中 山 桥 0. 196 7 0.289 3 0.254 4 0.2055 0.558 8 
宰 城 0.2027 0.190 1 0.2105 0.0137 0.147 1 


(2) 标 准 差 标准 化 ， 即 : 


= =], 2, 0 ms j=1, 2, 0 WW) (4. 2) 


i 1 
其 中 ， =m Hm 
rh (ee / 用 / 5 
且 Xi = mo =0,，5' = pp ~ ek 


其 中 ,zx， ,zj 含义 同 式 (4. 1); zj 为 第 7 个 指标 的 平均 值 ; 5; 为 第 j 个 指标 的 标 
准 差 。 通 过 变换 处 理 后 ,每 列 数据 的 平均 值 为 0， 方差 为 1, 使 用 标准 差 标准 化 
处 理 后 ， 在 抽样 样本 改变 时 ， 它 仍 保持 相对 稳定 性 。 
表 4.1 中 的 数据 经 标准 差 标准 化 处 理 后 ， 得 如 表 4.3 中 所 列 的 数据 。 在 
Matlab 环境 下 程序 说明: 文字 格式 为 程序 中 真实 格式 ) 为 : 
x=[10.0 0.8 2.0 0.10 0.003; 10.5 1.3 1.8 0.16 0.002; 
10.4 1.9 1.2 0.16 0.003; 8.8 2.3 1.1 0.72 0.002; 
13.0 3.5 1.9 0.30 0.019; 13.4 2.3 2.4 0.02 0.005] 





y=std(x,1); 
z=mean(x,1); 
xx2 一 zeros(6.5); 
for j=1:5 
fori 一 1:6 
xx2 (ij) 一 (x(ij) 一 zj))/yGD， 
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end 
end 
XX2 


其 中 ，z 为 标准 化 前 的 数据 ，zz2 为 标准 差 标准 化 处 理 后 的 数据 。 








表 4.3 标准 差 标准 变换 结果 
各 站 点 时 
溶解 氧 高 锰 酸 盐 指 数 BOD; NHs-N 挥发 酚 

攀枝花 一 0.6186 一 1.425 9 0.158 1 一 0.625 8 一 0.441 1 
高 场 —0.3144 一 0.839 9 一 0.158 1 一 0.363 9 一 0.606 4 
津 市 一 0.375 2 一 0.136 7 一 1.106 8 一 0.363 9 一 0.441 1 
长 沙 一 1.348 7 0.332 1 一 1.264 9 2.081 2 一 0. 606 4 
中 山 桥 1.206 7 1.738 4 1.581 1 0.247 4 2.205 3 
宣 城 1. 450 1 0.332 1 0.790 6 一 和.9751 一 0.110 3 





(3) 极 大 值 标准 化 ， 即 : 


二 一 25- -人 二 oo 一 
rr (一 1，2，…，704 j=1, 2, 


其 中 ，z， ,zs 含义 同 式 (4.2); max {zy) 为 i 样品 的 第 j 个 指标 中 的 最 大 值 。 
经 过 这 种 标准 化 所 得 的 新 数据 ， 各 要 素 的 极 大 值 为 1， 其 余 各 数值 小 于 1。 
表 4. 1 数据 经 极 大 值 标准 化 处 理 后 ， 得 如 表 4. 4 中 所 列 的 数据 。 
在 Matlab 环境 下 程序 〈 说 明 : 文字 格式 为 程序 中 真实 格式 ) 为 : 
x=[10.0 0.8 2.0 0.10 0.003; 10.5 1.3 1.8 0.16 0.002; 
10.4 1.9 1.2 0.16 0003 88 2.3 1.1 0.72 0.002; 
13.0 3.5 1.9 0.30 0.019; 13.4 2.3 2.4 0.02 0.005] 


ep ME (4.3) 


Ty 


a=max(x,[ ],1)3 
xx3=zeros(6,5); 
for j=1:5 

for i=1:6 

xx3 (1,j)=x(i,)) /adj)s 

end 
end 
xx3 


其 中 ，z 为 标准 化 前 的 数据 ，zz3 为 极 大 值 标准 化 处 理 后 的 数据 。 








表 4.4 极 大 值 标准 化 变换 结果 

各 站 点 

溶解 氧 高 锰 酸 盐 指 数 BODs NH:-N 挥发 酚 
饮 枝 花 0.746 3 0.2286 0.689 7 0.138 9 0.1579 
高 场 0.783 6 0.3714 0.6207 0.222 2 0.105 3 
津 市 0.776 1 0.542 9 0.413 8 0.222 2 0.157 9 
长 沙 0.6567 0.657 1 0.379 3 1.0000 0.1053 
中 山 桥 0.970 1 1.0000 1.0000 0.416 7 1.0000 
宣 城 1.0000 0.657 1 0.8276 0.027 8 0.263 2 


(人 D 极 差 的 标准 化 ， 即 : 


一 min (xs) 


1 


ma {zs} 一 min (zxy} 


经 过 这 种 标准 化 所 得 的 新 数据 ， 各 要 素 的 极 大 值 为 1， 极 小 值 为 0， 其 余 的 


数值 均 在 0 与 1 之 间 。 


表 4.1 数据 经 标准 差 标准 化 处 理 后 ， 得 如 表 4. 5 中 所 列 的 数据 。 
在 Matlab 环境 下 程序 〈 说 明 : 文字 格式 为 程序 中 真实 格式 ) 为 : 


mie ge 


ms j=1, 2, *, n) (4.4) 


x=[10.0 0.8 2.0 0.10 0.003; 10.5 1.3 1.8 0.16 0.002; 
0.16 0.003; 8.8 2.3 1.1 0.72 0.002; 


10.4 
13.0 3.5 


19 1.2 


a=max (xi[ ],1); 
b=min(x,[ ],1) 


xx4=zeros(6,.5); 


for j= 





for i=1:6 


end 
end 


xx4 


xxt Ci,))=(xC,)D)—b0)) /ad) —bO)); 


1.9 0.30 0.019; 13.4 2.3 2.4 0.02 0.005] 


其 中 ，z 为 标准 化 前 的 数据 ，zz4 为 极 差 标 准 化 处 理 后 的 数据 。 
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表 4.5 极 差 标准 化 变换 结果 

各 站 点 和 5 

溶解 氧 高 锰 酸 盐 指数 BOD; NH:-N 挥发 酚 
攀枝花 0.2609 0.0000 0.5000 0.1143 0.058 8 
高 场 0.369 6 0.185 2 0.388 9 0.2000 0.0000 
津 市 0.347 8 0.407 4 0.055 6 0.2000 0.058 8 
长 沙 0.0000 0.5556 0.0000 1.0000 0.0000 
中 山 桥 0.913 0 1.0000 1.0000 0.4000 1.0000 
宣 城 1.0000 0.555 6 0.722 2 0.000 0 0.176 5 


此 外 ， 还 有 中 心 化 标准 化 、 对 数 标准 化 、 平 方 根 标准 化 、 立 方 根 标准 化 等 。 
立方 根 变换 和 平方 根 变换 的 主要 作用 是 把 非 线性 数据 结构 变 为 线性 数据 结构 ， 以 
适应 某 些 统计 方法 的 需要 。 


研究 变量 或 样本 的 亲 玻 程度 的 数量 指标 一 般 有 两 种 ， 一 种 为 距离 ， 它 是 事物 
之 间 差异 性 的 测度 ， 将 每 一 样本 看 成 n 维 空间 (n 个 变量 ) 的 一 个 点 ， 在 这 交 维 空 
间 中 定义 距离 ， 距 离 较 近 的 点 归 为 同一 类 ， 距 离 较 远 的 点 归 为 不 同 的 类 ; 另 一 种 
为 相似 系数 ， 它 是 事物 之 间 相 似 性 的 测度 ， 性 质 越 接近 的 样本 ， 它 们 之 间 的 相似 
系数 越 接近 于 1( 或 一 1)。 当 聚 类 要 素 的 数据 处 理工 作 完成 以 后 ， 就 要 计算 分 类 
对 和 象 之 间 的 距离 或 相似 系数 ， 并 依据 距离 或 相似 系数 的 矩阵 结构 进行 聚 类 。 


4.3.1 距离 的 计算 


如 果 我 们 把 每 一 个 分 类 对 象 的 个 聚 类 要 素 看 成 维 空间 的 个 坐标 轴 ， 则 
每 一 个 分 类 对 象 的 个 要 素 所 构成 的 n 维 数据 向 量 就 是 n 维 空间 中 的 一 个 点 。 这 
样 ， 各 分 类 对 象 之 间 的 差异 性 就 可 以 由 它们 所 对 应 的 维 空间 中 点 之 间 的 距离 来 
度量 。 

假设 有 个 被 聚 类 的 对 象 ， 每 一 个 被 聚 类 对 象 都 有 二 ，z2，…， zz 个 
要 素 构成 。 它 们 所 对 应 的 要 素数 据 可 用 表 4. 6 给 出 。 第 i 个 样本 z; 为 矩阵 于 
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的 第 i 行 所 描述 ， 所 以 任何 两 个 样本 zx 与 zi 之 间 的 相似 性 可 以 通过 和 矩阵 
中 第 下行 与 第 L 行 的 相似 度 来 刻画 ; 任何 两 个 变量 zw 与 zw 之 间 的 相似 性 ， 
可 以 通过 矩阵 第 M 列 与 第 N 列 的 相似 度 来 刻画 (K, L=1, 2,…,，m; M， 
N=1, 2, », n)。 





表 4.6 聚 类 分 析 数 据 表 
3 素 
对 象 
ZI1 Ti i TU al 
2 Tol Ta Ty Tr 
i ra r E r 
mm Tm Tm Tm es Tm 


其 中 ,zj 表示 第 i 个 样本 的 第 j 个 指标 ; di 表示 第 i 个 样本 和 第 j 个 样本 之 
间 的 距离 。 

应 满足 如 下 儿 个 条 件 : 

(1) 非 负 性 ; dy 宇 0 Gi, j=1, 2, ,mm)s 

(2) 规 范 性 ; dy=0 (i=j=1,，2,……，m); 

(3) 对 称 性 ; dy 二 djs Gi, j=1,，2, ,mm); 

(4) 三 角 不 等 式 ; dy<ds 十 dy (i, j,k=1, 2,…, m)。 

常用 的 距离 有 : 

(1) 绝 对 值 距离 (Kanhattan 度量 或 网 格 度量 ) 


di = > [za—za| (Cis j=1, 2, *, m) (4.5) 
fi 
(2) 欧 氏 距离 (二 阶 Minkowski 度量 ) 


dy =, /2 ra—za) Ci, j=1, 2, %, m) (4.6) 
EE 


欧 氏 距离 是 聚 类 分 析 中 用 得 最 广泛 的 距离 。 
(3) 明 科 夫 斯 基 (Minkowski) 距 离 


di = bs | za —za 1*] (i, j=1, 2, es m) (4.7) 


式 (4.7) 中 ，p 三 1。 当 p 二 1 时 ， 它 就 是 绝对 值 距离 ; 当 p 二 2 时 ， 它 就 是 欧 氏 
距离 。 
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(4) 切 比 雪夫 距离 
当 明 科 夫 斯 基 距 离 p->oo 时 ， 

dslo)=max | za—za | (i; j=1, 2, “1, m) (4. 8) 
(5)Canberra 度量 (又 称 兰 氏 距离 ) 

ds - 守 ! 二 4! Cis j=1, 2, 1 m) (4.9) 


名 re Tz 

这 是 一 个 自身 标准 化 的 量 ， 由 于 它 对 大 的 奇异 值 不 敏感 ， 所 以 特别 适合 高 度 偏 倚 
的 数据 。 

上 述 各 种 距离 是 假定 变量 之 间 相 互 独 立 ， 即 在 正 交 空间 中 讨论 的 距离 。 选 择 
不 同 的 距离 。 聚 类 结果 会 有 所 差异 。 在 研究 中 ,往往 采用 几 种 距离 进行 计算 、 对 
比 ， 选 择 一 种 较为 合理 的 距离 进行 聚 类 。 

(6) 马 氏 (P，C，Mahalanobis) 距 离 

设 S 表示 指标 的 协 方差 定 阵 ， 即 : $= (us )wv 


其 由 = 生 区 2 
和 


1& . 
也 一 mi ， 万 一 pp 
若 S$ 存在， 则 两 个 样本 之 间 的 马 氏 距离 为 : 
d=(X—%) SX,—X) (4. 10) 
这 里 X, 为 第 i 个 样本 的 个 指标 组 成 的 向 量 ， 即 原始 资料 阵 的 第 i 行 向 量 ; 样本 
Xi; 类 似 。 
马 氏 距离 虽然 可 以 排除 变量 之 间 相关 性 的 干扰 ， 并 且 不 受 量 纲 的 影响 ,但 是 
在 聚 类 分 析 处 理 之 前 ， 如 果 用 全 部 数据 计算 的 均值 和 协 方差 阵 来 计算 马 氏 距离 ， 
效果 不 是 很 好 。 比 较 合理 的 办 法 是 用 各 个 类 的 样本 来 计算 各 自 的 协 方差 矩阵 ， 同 
-类 样本 的 马 氏 距 离 应 当 用 同一 类 的 协 方差 矩阵 来 计算 ， 而 类 的 形成 都 要 依赖 于 
样本 之 间 的 距离 ， 而 样本 之 间 合 理 的 马 氏 距离 又 依赖 于 类 ， 这 就 形成 了 一 个 恶性 
循环 ， 因 此 在 实际 聚 类 分 析 处 理 中 ， 马 氏 距 离 也 不 是 理想 的 距离 。 为 了 克服 变量 
间 相关 性 的 影响 ， 可 以 引入 斜 交 空间 距离 。 
(7) 斜 交 空 间距 离 
由 于 多 个 变量 之 间 存 在 着 不 同 程度 的 相关 关系 ， 在 这 种 情况 下 ， 用 正 交 空间 距 
离 来 计算 样本 间 的 距离 。 易 产生 变形 ， 从 而 使 聚 类 簇 分 类 时 的 谱系 结构 发 生变 形 。 
图 4- 1 表示 在 二 维 空间 中 ， 两 个 坐标 轴 在 斜 交 和 正 交 情况 下 ， 用 欧 氏 距离 
计算 所 产生 的 变形 ， 即 斜 交 空间 中 的 圆 将 在 正 交 空 间 下 变形 为 椭 
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图 4-1 二 维 空间 中 ， 不 同 坐标 轴 系 中 用 欧 氏 距离 计算 所 产生 的 变形 


在 nn 维 空间 中 ， 要 使 大 量具 有 相关 性 的 变量 的 谱系 结构 不 发 生变 形 ， 可 采用 
斜 交 空间 距离 ， 其 距离 公式 为 ， 
+ 
dy = E33 一 am 一 am CB jal 2 rm) Cb 11) 


在 数据 标准 化 处 理 下 ， 必 为 变量 上 和 变量 1 之 间 的 相关 系数 。 
例 4.2 据 表 4. 3 中 的 数据 ， 用 式 (4.5) 一 (4.7) 计 算 6 个 监测 站 之 间 的 绝对 
值 距 离 、 欧 式 距离 和 明科 夫 斯 基 距 离 。 
解 6 个 监测 站 之 间 的 绝对 值 距离 、 欧 式 距离 和 明科 夫 斯 基 距 离 计 算 如 下 : 
(1) 当 p==1 时, 它 就 是 绝对 值 距离 。 在 Matlab 环境 下 程序 说明 ; 文字 格 
式 为 程序 中 真实 格式 ) 为 : 
x= [一 0.6186 一 1.4259 0.1581 一 0.6258 一 0.4411; 
一 0.3144 一 0.8399 一 0.1581 一 0.3639 一 0.6064; 
一 0.3752 一 0.1367 一 1.1068 一 0.3639 一 0.4411; 
一 1.3487 一 0.3321 一 1.2649 2.0812 一 0.6064; 
1.2067 1.7384 1.5811 0.2474 2.2053; 
1.4501 0.3321 0.7906 一 0.9751 一 0.1103] 
[m,n] =size(2); 


aa 一 Zeros (mm); 


for 这 1:m 
for j 一 1:m 
for k=1:n 
a(i,j)=a(i,j)+abs(x(Ci,k)—x(j,k)); 
end 
end 








0.000 0 

1.6336 0.0000 
DS 3.0594 1.8780 0.0000 
6.7834 5.7582 4.2108 
9.9322 9.2616 9.4026 
5.1393 4.9925 5.1335 

(2) 当 p= 
为 程序 中 真实 格式 ) 为 : 

x 一 [一 0.6186 一 1.42 0.1581 —0.6258 
一 0.3144 ”一 0.8399 一 0.1581 一 0. 3639 
一 0.3752 一 0.1367 一 1.1068 一 0.3639 
一 1..3487 一 0.3321 一 1.2649 2.0812 
1. 2067 1.7384 1,5811 0. 2474 
1. 4501 0. 3321 0.7906 一 0.9751 


[m,n] 一 size(x)# 


b=zeros(m,m); 





for i 一 1:m 


for j=1:m 
for k=l:n 
bG,D=b(i,)D+ (Cx,k) —xG,k)) A2; 
end 
end 
end 
sqrt(b) 
0.0000 
0.794 9 0.0000 
与 |1.8412 1.1940 0.0000 
Ds (ds)exe T36061 3.1059 2.6830 
4.8099 4.5017 4.5410 
2.8287 2.4509 2.7631 
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0.0000 
11.453 2 0.0000 
8.4067 5.9783 0.0000 


2 时， 它 就 是 欧 氏 距离 。 在 Matlab 环境 下 程序 说明 : 文字 格式 


一 0. 4411; 
一 0.60643; 
—0. 4411; 
一 0.6064; 


2. 20533 


一 0.1103] 


0.000 0 
5.2798 0.0000 
4.6525 3.0852 0.0000 


(3) 当 p>2 且 为 确定 值 时 ， 可 求 得 明科 夫 斯 基 距 离 矩阵 。 


4.3.2 相似 系数 的 计算 








聚 类 分 析 方 法 不 仅 可 以 用 来 对 样本 进行 分 类 


， 而 且 可 以 对 变量 进行 分 类 ， 在 
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对 变量 进行 分 类 时 ,通常 采用 相似 系数 来 表示 变量 之 间 的 亲 政 程度 。 两 个 变量 越 
相似 ， 它 们 的 相似 系数 越 大 。 在 聚 类 分 析 中 ， 总 是 把 两 个 相似 系数 最 大 的 变量 首 
先 归 为 一 类 。 相 似 系数 定义 如 下 : 

设 C; 表 示 变 量 zx; 与 zi 间 的 相似 系数 ， 则 Cs 应 满足 如 下 关系 : 

(DG=+1Sr=ar, (a€ER, az0); 

(2) | Gs | el (5 3=1y 25 “eo 4 

(WGCy=Gs ‘(i j=1. Zo ey ni)e 

当 | C | 越 接近 于 1， 则 表示 z, 与 zi 关系 越 密切 ; | C | 越 接 近 于 0， 则 
表示 x 与 x 关系 越 玖 远 。 常 见 的 相似 系数 是 内 积 系 数 ， 主 要 包括 ; 夹 角 余 弦 和 
相关 系数 ， 其 计算 公式 如 下 。 

@ 夹 角 余 弦 

图 4-2 中 曲线 AB 和 CD 尽管 长 度 不 一 但 形状 相似 ， 当 长 
度 不 是 主要 矛盾 时 ， 应 定义 一 种 相似 系数 使 AB 和 CD 呈现 出 AS 
密切 的 关系 ， 而 夹 角 余 效 适合 这 一 要 求 。 其 定义 为 : 5 

将 任何 两 个 样本 x 与 x 看 成 维 空间 的 两 个 向 量 ， 这 两 个 向 ”图 4-2 
量 的 夹 角 余弦 用 cos 色 表 示 ， 则 : 


> (razpy 


Ci = eos bh; = er (i, j=1, 2, **, m) (4. 12) 
和 且 Pp 
在 式 (4. 12) 中 ， 显 然 有 : 一 1 过 cos 9; 夺 1。 它 是 i 和 j 两 个 指标 向 量 在 原点 
处 的 夹 角 0; 的 余弦 。 当 cos 0; 二 士 1, 说 明 两 个 样本 Xi 与 X; 完全 相似 ; 
| cos 0 | 接近 1， 说 明 X, 与 Xi 相似 密切 ; cos 9; 二 0， 说 明 X, 与 Xj; 完全 不 一 
样 ; | cos b | 接近 0, 说明 X; 与 X; 差别 大 。 因 此 ， 相 似 系数 的 数值 范围 为 
[一 1, 1] 区 间 。 
据 表 4. 3 中 的 数据 ， 用 夹 角 余 弦 公 式 式 (4. 12) 计 算 ， 可 得 如 下 的 夹 角 余弦 
矩阵: 
CI 一 (cos 0; )exs 
1.0000 0.9284 0.2963 一 0.1752 一 0.6835 一 0.1730 
0.9284 1.0000 0.5354 一 0.0135 -一 0.8841 一 0.1949 
| 0.2963 0.5354 1.0000 0.3653 一 0.7762 一 0.4160 
， |-o.1752 一 0.0135 0.3653 1.0000 一 0.391 3 一 0.8597 
一 0.6835 一 0.8841 一 0.7762 一 0.3913 1.0000 0.4598 
0.1730 一 0.1949 一 0.4160 一 0.8597 0.4598 1.0000 
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四 相关 系数 


Dez) —Zz;) 


B= Ee -5 
在 式 (4. 13) 中 ， 友 和 去 分 别 为 聚 类 对 象 : 和 j 各 要 素 标准 化 数据 的 平均 值 。 
据 表 4. 3 中 的 数据 ， 用 相关 系数 公式 式 (4. 13) 计 算 ， 可 得 如 下 的 相关 系数 
和 矩阵 
Rs = (ry Jexs 
1.0000 0.8468 一 0.9128 一 0.4191 0.0116 0.1406 
0.8468 1.0000 一 0.7612 一 0.2707 一 0.4196 —0.2453 
_|—0.9128 一 0.7612 1.0000 0.4700 一 0.1116 一 0.253 3 
0.4191 一 0.2707 0.4700 1.0000 一 0.6564 一 0.8759 
0.0116 一 0.4196 一 0.1116 一 0.6564 1.0000 0.3773 
0.1406 02453 一 0.2533 一 0.8759 ， 0.3773 1.0000 





rs 


(i j= Br wey my C4 73) 





4.3.3 距离 和 相似 系数 选择 原则 








一 般 说 来 ， 同 一 批 数 据 采 用 不 同 的 相似 性 尺度 ， 会 得 到 不 同 的 分 类 结果 。 产 
生 不 同 结果 的 原因 ， 主 要 是 由 于 不 同 的 指标 所 衡量 的 相似 程度 的 物理 意义 不 同 ， 
也 就 是 说 ， 不 同 指标 代表 了 不 同意 义 上 的 相似 性 。 因 此 我 们 在 进行 数值 分 类 时 ， 
应 注意 相似 性 尺度 的 选择 ， 注 意 遵 循 下 列 基本 选择 原则 : 

(1) 所 选择 的 相似 性 尺度 在 实际 应 用 中 应 有 明确 的 意义 ,如 在 经 济 变量 分 析 
中 ,常用 相关 系数 表示 经 济 变量 之 间 的 亲疏 程度 。 

(2) 根 据 原始 数据 的 性 质 ， 选 择 适 当 的 变换 方法 。 不 同 的 变换 方法 涉及 选用 
不 同 的 相似 系数 ， 如 标准 化 变换 处 理 下 ， 相 关系 数 和 夹 角 余弦 一 致 ， 又 如 原始 数 
据 在 进行 聚 类 分 析 处 理 之 前 已 经 对 变量 的 相关 性 作 了 处 理 ， 则 通常 可 采用 欧 氏 距 
离 ， 而 不 必 选 用 斜 交 空间 距离 。 所 选择 的 距离 ， 还 须 和 选用 的 聚 类 方法 一 致 ， 如 
聚 类 方法 选用 离 差 平方 和 法 时 ， 距 离 只 能 采用 欧 氏 距离 。 

(53) 适 当 考虑 计算 工作 量 的 大 小 ， 如 对 大 样本 的 聚 类 问题 ， 不 适宜 选择 斜 交 
空间 距离 ， 因 采用 该 距离 处 理 时 ， 计 算 工作 量 太 大 。 

距离 的 选择 应 根据 研究 对 象 ， 作 具体 分 析 。 在 多 次 进行 聚 类 分 析 过 程 中 ， 逐 
步 总 结 经 验 ， 以 选择 合适 的 距离 。 初 次 进行 聚 类 分 析 处 理 时 ， 不 妨 用 多 选择 几 种 
计算 距离 的 方法 来 进行 聚 类 ， 作 对比、 分 析 ， 以 确定 合适 的 距离 。 
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正如 样本 之 间 的 距离 可 以 有 不 同 的 定义 方法 一 样 ， 类 与 类 之 间 的 距离 也 有 各 
种 定义 ， 例 如 可 以 定义 类 与 类 之 间 的 距离 为 两 类 之 间 最 近 样本 的 距离 ， 或 者 定义 
两 类 之 间 最 远 样本 的 距离 ， 也 可 以 定义 两 类 重心 之 间 的 距离 等 。 类 与 类 之 间 用 不 
同 的 方法 定义 距离 ， 就 产生 了 不 同 的 系统 聚 类 方法 。 

最 短 距离 法 、 最 远 距离 法 、 中 间距 离 法 、 重 心 法 、 类 平均 法 、 可 变 类 平均 
法 、 可 变法 和 离 差 平方 和 法 为 常用 的 八 种 系统 聚 类 方法 。 尽 管 系统 聚 类 分 析 方法 
很 多 ， 但 归 类 的 步骤 基本 上 一 样 ， 仅 是 类 与 类 之 间距 离 的 定义 方法 有 所 不 同 ， 从 
而 得 到 不 同 的 计算 距离 的 公式 。 这 些 公 式 在 形式 上 不 大 一 样 ， 但 最 后 可 将 它们 统 
一 为 一 个 公式 ， 为 上 机 计算 带 来 很 大 的 方便 ， 详 见 后 文 。 本 节 重 点 介绍 系统 聚 类 
方法 。 

系统 聚 类 法 是 聚 类 分 析 诸 多 方法 中 应 用 较 多 的 一 个 。 它 包含 以 下 步 又 ， 

(1) 构 造 关 个 类 ， 每 个 类 只 包含 一 个 样本 ， 记 作 GE，G，…，Gni 

(2) 定 义 m 个 样本 两 两 间 的 距离 (dy), 记 作 DY =(dP)wxn; 

(3) 合 并 距离 最 近 的 两 类 为 一 新 类 ， 记 作 Cun+i 类 ， 并 取消 刚 合 并 的 那 两 类 ， 
得 到 m 一 1 类 ; 

(4) 计 算 新 类 与 剩余 各 类 的 距离 ， 若 类 的 个 数 等 于 1， 转 到 步骤 (5)， 否 则 回 
到 步骤 (3)， 

(5) 画 聚 类 图 ; 

(6) 确 定 临 界 值 ， 决 定 类 的 个 数 和 类 的 构成 。 

在 某 种 意义 上 ， 最 短 距离 法 最 优 ， 类 平均 法 和 最 远 距离 法 次 之 。 本 节 以 一 具 
体例 题 来 解释 最 短 距离 法 、 最 远 距离 法 的 具体 计算 过 程 。 

在 系统 聚 类 法 中 ， 除 了 定义 类 间距 离 外 ， 还 要 规定 分 类 临界 值 ， 即 聚 类 到 某 
个 “程度 ”时 便 停 止 ， 并 非 将 所 有 的 对 象 都 归并 为 一 大 类 。 当 类 间距 离 大 于 给 定 
的 临界 值 时 便 停 止 聚 类 ， 由 此 得 到 若干 个 较 少 的 类 。 

例 4.3 表 4.7 给 出 了 某 地 区 九 个 农业 区 的 七 项 指标 (徐建华 ，2006)D， 经 
过 极 差 标准 化 处 理 〈 见 本 章 4. 2 节 ) 后 ， 如 表 4. 8 所 示 。 


加 ”http://218. 24. 233. 167:8000/Resource/Book/Edu/JXCKS/TS090038/0007_ts090038. htm 
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表 4.7 某 地 区 九 个 农业 区 的 七 项 指标 数据 
区 ”人均 耕 地 ”劳动 耕地 ”水田 比重 复种 指数 粮食 亩 产 。 人 均 粮 食 ”稻谷 占 粮 
代 xX Xs Xs xX Xs Xs 食 比 重 X 
号 /(hm。 人 ”) /hz 个 1 /% /I% /dg hm23) /dg 人)  /% 
G 0.294 1.093 5.63 113.6 4510.5 1036.4 12. 20 
G 0.315 0.971 0.39 95.1 2773.5 683.7 0.85 
G 0.123 0.316 5. 28 148.5 6 934.5 611.1 6. 49 
G 0.179 0.527 0.39 111.0 4 458.0 632.6 0.92 
G 0.081 0.212 72.04 217.8 12249.0 791.1 80. 38 
G: 0.082 0.211 43.78 179.6 8 973.0 636.5 48.17 
G 0.075 0.181 65.15 194.7 10689.0 634.3 80. 17 
G: 0.293 0.666 5.35 94.9 3 679.5 771.7 7.80 
G 0.167 0.414 2.90 94.8 4231.5 574.6 1.17 

表 4.8 极 差 标准 化 后 的 数据 

Xi Xs Xs xX Xs Xs X; 
G 0.9125 10000 0.0731 0.1528 0.1833 1.0000 0.1427 
G: 1.0000 0.8662 .0000 0.0024 0.0000 0.2362 0.0000 
0.4366 0.4391 0.0790 0.0709 


0. 
G 0.2000 0.1480 0.068 2 
0.0000 0.1317 0.177 8 0.125 6 0.000 9 
G 0.0250 0.034 0 1.0000 1.0000 1.0000 468 8 1.0000 
.605 6 0.689 4 0.654 3 134 0 0.595 0 
0.812 2 0.835 4 129 3 0.997 4 


.069 2 0.0008 0.095 6 426 8 0.0874 


2 
所 
号 
品 
如 
2 
a 
% 
六 攻 - 芝 | ,名 | 避 


0. 

G 0.0000 0.0000 0.903 8 
0. 
0. 


.035 0 0.0000 0.153 9 0000 0.0040 
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4.4.1 最 短 距 离 系统 聚 类 法 原理 











原理 :最短 距离 聚 类 法 ,是 在 原来 的 mXm 距离 矩阵 的 非 对 角 元 素 中 找 出 最 


小 值 46.,， 把 分 类 对 象 G 和 G, 归并 为 一 新 类 G,， 然 后 按 计算 公式 : 
de 一 min {dpr» do} 


(RFp, 


(4.14) 


计算 原来 各 类 与 新 类 之 间 的 距离 ， 这 样 就 得 到 一 个 新 的 (一 1) 阶 的 距离 矩 
阵 ， 再 从 新 的 距离 矩阵 中 选 出 最 小 者 di,;， 把 G 和 G; 归并 成 新 类 ; 再 计算 各 类 


与 新 类 的 距离 ， 这 样 一 直 计 算 下 去 ， 直 至 各 分 类 对 象 被 归 为 一 类 为 止 。 


例 4.4 已 知 九 个 农业 区 之 间 的 绝对 值 距离 矩阵 ， 使 用 最 短 距 离 聚 类 法 作 聚 


类 分 析 。 


了 D; =(dij) xe) 


0.0000 


1.5346 0,.0000 
3.1017 2.6879 0.0000 
2.2158 1.4721 1.2158 0.0000 

一 |5.8327 6.0374 3.6639 4.7866 0.0000 
4.7087 4.4482 1.8704 2.9930 1.7958 0.0000 
5.7800 5.5195 2.932 1 4.0548 0.8498 1.0713 0.0000 


1.3445 0.8705 2.2366 1.2974 5.1701 3.9621 5.0334 0.0000 


2.6328 1.6590 1.1918 0.4933 4.8557 3.0621 4.1239 1.4048 0.0000 
根据 上 面 的 矩阵 ， 用 最 短 距 离 聚 类 法 作 聚 类 分 析 : 
(1) 在 9X9 阶 距 离 矩 阵 Ds 中 ， 非 对 角 元 素 中 最 小 者 是 必 , 一 0.493 3， 故 首 

先 将 第 4 区 与 第 9 区 并 为 一 类 ， 记 为 Go， 即 Go 一 {G,，Gs)。 按 式 (4. 14) 分 别 

计算 G1，Gs， Gs，G;，Gs，Gr，Gs 与 Gu 之 间 的 距离 ， 得 : 


人 in 一 min 
cd 一 min 
ca 一 min 
di.w —=min 
ds.w =min 
di.w =min 
ds.w —=min 


dis) =min 
dss} =min 


das) =min 


dss) =min 
dsa) =min 
ds) =min 
ds.s) 一 min 


{2. 
全 
{1. 
{4. 
{2 
{4. 
{1 


215 8, 2. 
472 1, 1. 
215 8, 1. 
786 6, 4. 
993 0，3. 
054 8, 4. 
297 4, 1. 


632 8} 
659 0} 
191 8) 
855 7} 
062 1} 
123 9} 
404 8} 


ig. 
= 
ml 
= 
=2 
= 
sels 


2158 
472 1 
191 8 
786 6 
993 0 
054 8 
297 4 


这 样 就 得 到 Gl ，G。，Gs，G;，Gs，G+，Gs，Gio 上 的 一 个 新 的 8X8 阶 距离 矩阵 : 


Gi 
G 0.0000 
G。 1.5346 
Gs 3.1017 
Gs 5.8327 
Gs 4.7087 
GT 5.7800 
Gs 1.3445 
Gw 2.215 8 


Crz 


0.000 0 
2.687 9 
6.0374 
4.448 2 
5.5195 
0.8705 
1.472 1 


0. 
3. 
ls 
2 
2 


Gs 


0000 
6639 
870 4 
932 1 
236 6 
191 8 
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Gs Gs G Gs Go 


0.0000 

1.795 8 0.0000 

0.8498 1.0713 0.0000 

5.1701 3.9621 5.0334 0.000 0 

4.7866 2.9930 4.0548 1.2974 0.0000 


(2) 在 上 一 步 又 中 所 得 到 的 8X8 阶 距 离 矩阵 中 ， 非 对 角 元 素 中 最 小 者 为 d;.1 一 


0. 849 8， 故 将 G 与 G; 归并 为 一 类 , 记 为 Gu， 即 Gu 二 (G，G)。 
按 此 方法 类 推 可 将 所 有 分 类 对 象 归 类 。 
综合 上 述 聚 类 过 程 ， 可 以 作出 最 短 距离 聚 类 谱系 图 。 








Gy 


G G G, 6 G, Gs 








图 4-3 最 短 距离 聚 类 谱系 图 


最 后 ， 决 定 类 的 个 数 与 类 。 如 果 在 图 4- 3 距离 为 1. 297 4 处 切 一 刀 ， 即 得 到 
九 个 农业 区 的 三 大 类 。 它 们 分 别 是 {Gi},， {Gz， Gs, G1， Gs， Gy) 及 {Gs， Gs， Gr}。 
在 实际 问题 中 有 时 给 出 一 个 阔 值 T， 要 求 类 与 类 之 间 的 距离 小 于 T， 因 此 有 些 样 


本 可 能 归 不 了 类 。 














4.4.2 最 远 距 离 聚 类 法 原理 








原理 ,最 远 距离 聚 类 法 ,是 在 原来 的 mXm 距离 矩阵 的 非 对 角 元 素 中 找 出 最 
小 值 &os， 把 分 类 对 象 G 和 Gu, 归并 为 一 新 类 G,， 然 后 按 计算 公式 : 
dir—=max (dips dts} (k#¥p, q) (4.15) 
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计算 原来 各 类 与 新 类 之 间 的 距离 ， 这 样 就 得 到 一 个 新 的 (mm 一 1) 阶 的 距离 矩阵 ; 
再 从 新 的 距离 矩阵 中 选 出 最 小 者 di,;， 把 G; 和 G; 归并 成 新 类 ; 再 计算 各 类 与 新 
类 的 距离 ， 这 样 一 直 计 算 下 去 ， 直 至 各 分 类 对 象 被 归 为 一 类 为 止 。 

最 远 距离 从 类 法 与 最 短 距 离 聚 类 法 的 区 别 在 于 计算 原来 的 类 与 新 类 距离 时 ， 
采用 的 公式 不 同 ， 而 其 并 类 步骤 完全 一 样 。 

例 4.5 已 知 九 个 农业 区 之 间 的 绝对 值 距离 矩阵 ， 使 用 最 远 距离 聚 类 法 作 聚 
类 分 析 。 

D;s = (dij Ysxs 
0.0000 
1.534 6 0.0000 
3.1017 2.6879 0.0000 
2.2158 1.4721 1.2158 0.0000 
一 |5.8327 6.0374 3.6639 4.7866 0.0000 
4.7087 4.4482 1.8704 2.9930 1.7958 0.0000 
5.7800 5.5195 2.9321 4.0548 0.8498 1.0713 0.0000 
1.3445 0.8705 2.2366 1.2974 5.1701 3.9621 5.0334 0.0000 
2.6328 1.6590 1.1918 0.4933 4.8557 3,0621 4.1239 1.4048 0.0000 
根据 上 面 的 矩阵 ， 用 最 远 距 离 聚 类 法 聚 类 : 

0) 在 9 关 9 阶 距 离 矩阵 中 ， 非 对 角 元 素 中 最 小 者 是 d;.s 二 0. 493 3， 故 首先 将 
第 4 区 与 第 9 区 并 为 一 类 ， 记 为 Ce， 即 Gw 二 {G,，Gs,)。 按 式 (4.15) 分 别 计算 
Gi，Gs，G3，Gs，Gs，G;，Gs 与 Go 之 间 的 距离 ， 得 : 

diuo=max{diu, dis}=max{2. 215 8，2. 632 8}=2.632 8 

dn =max{dss, d2.s}=max{l1. 472 1, 1.659 0}=1.6590 

ds.0=max{ds4, das}=max{1. 215 8, 1.191 8}=1.2158 

ds.wn =max{dsu, dss)=max{4.786 6, 4.855 7} 一 4.855 7 

deio =max{dss, dsws}=max{2.993 0, 3.062 1}=3.062 1 

do=max{dia, di,s}=max{4.054 8, 4.123 9}=4.123 9 

dso =max{ds4, da.s}=max(1.297 4, 1.404 8} 一 1.4048 
这 样 就 得 到 G1，G;，G3，G:，Gs，G+，Gs，Gio 上 的 一 个 新 的 8X8 阶 距离 矩阵 : 


G 
G1: 0.0000 
G: 1.5346 
Gs 3.1017 
Gs 5.8327 
Gs 4.7087 
Gr 5.7800 
Gs 1.3445 
Gio 2.632 8 


G: 


0.0000 
2.6879 
6.037 4 
4.448 2 
5.5195 
0.8705 
1.658 9 
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Gs G; Gs G; Gs Go 


0.0000 

3.6639 0.0000 

1.8704 1.7958 0.0000 

2.9321 0.8498 1.0713 0.0000 

2.2366 5.1701 3.9621 5.0334 0.0000 

1.2158 4.8557 3.0621 4.1239 1.4048 0.0000 


(2) 在 第 一 步 得 到 的 8X8 阶 距 离 矩阵 中 ， 非 对 角 线 元 素 中 最 小 者 为 ds1 一 
0. 849 8， 故 将 G; 与 G+ 归并 为 一 类 ， 记 为 Gu， 即 Gu 一 {G，Gr)。 

按 式 (4.15) 计算 ， 依 次 归 类 。 

综合 上 述 聚 类 过 程 ， 可 以 作出 最 远 距 离 聚 类 谱系 图 。 





A=6.0374 


A=3.1017------ 


Me17958------|----------------=- 卜 -=-------=-=s== 
A=1.5346 






G G CD CO 6G G, Gs 








图 4-4 最 远 距 离 聚 类 谱系 图 


应 注意 ， 最 短 距离 法 也 可 用 于 对 指标 (变量 ) 的 分 类 ， 分 类 时 可 以 用 距离 ,也 
可 以 用 相似 系数 。 但 用 相似 系数 时 应 找到 最 大 的 元 素 并 类 ， 计 算 新 类 与 其 他 类 的 
距离 应 使 用 最 远 距 离 公式 (4. 15) 。 

以 上 仅 为 两 种 系统 聚 类 方法 ， 其 余 的 系统 聚 类 方法 ， 读 者 可 参看 有 关 文 献 。 


4.4.3 系统 聚 类 法 公式 的 统一 








系统 聚 类 法 通常 有 八 种 方法 〈 表 4. 9)， 这 些 方法 的 分 类 原则 和 过 程 基本 是 
一 致 的 ， 所 不 同 的 是 类 与 类 之 间 的 距离 有 不 同 的 定义 。 能 否 将 它们 统一 起 来 呢 ? 
关键 在 于 八 种 类 型 之 间 的 距离 的 定义 能 否 统一 。1969 年 ，Wishart 将 八 种 不 同 的 
距离 计算 公式 统一 为 如 下 递 推 公式 : 
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di =aydh, +asd% +Bd; +Y | ds —ads | (4.16) 
应 用 这 个 递 推 公式 的 前 提 是 : 设 类 Gy 和 类 G, 合并 为 新 类 G,， 当 计算 新 类 
G, 和 Gs(k 天 p， 中) 之 间 的 距离 履 就 用 公式 (4. 16)。 式 中 , 参数 w，om，B,， 7y 取 
不 同 的 值 时 ， 就 形成 了 不 同 的 聚 类 方法 ( 表 4. 9)。 
下 面 是 最 短 距 离 聚 类 法 和 最 远 距 离 聚 类 法 公式 的 统一 : 
(1) 最 短 距离 聚 类 法 具有 空间 压缩 性 ， 而 最 远 距 离 聚 类 法 具有 空间 扩张 性 
(图 4 - 5) .最 短 距 离 为 dx 二 di ， 最 远 距离 为 da 一 dss 。 








图 4-5 最 短 距离 聚 类 法 和 最 远 距 离 聚 类 法 之 间 的 关系 图 


(2) 最 短 距离 聚 类 法 和 最 远 距离 聚 类 法 关于 类 之 间 的 距离 计算 可 以 用 统一 的 
式 子 表示 : 

di =aydh +ad%+Yy | d; —ds | (4. 17) 

当 ;一 一 1/2 时 ， 就 是 最 短 距 离 聚 类 法 计算 类 间距 离 的 公式 ; 当 一 1/2 时 ， 就 

是 最 远 距离 聚 类 法 计算 类 间距 离 的 公式 。 各 种 系统 聚 类 法 类 间距 离 关 系 ， 见 表 4. 9。 


表 4.9 ” 八 种 不 同系 统 聚 类 方法 计算 类 间距 离 的 统一 表达 式 ( 胡 永 宏 等 ，2000) 








参 数 
方法 名 称 距离 矩阵 要 求 ”空间 性 质 
ap ay 有 7 
最 短 距离 法 1/2 1/2 0 —1/2 各 种 距离 压缩 
最 远 距 离 法 1/2 1/2 0 1/2 各 种 距离 扩张 
中 间距 离 法 1/2 172 [一 1/4, 0] 0 欧 氏 距离 保持 
jy —mX 
ee 0 欧 氏 距离 。 ”保持 
二 0 0 各 种 距离 保持 
离 差 平 十 + —m 
方 和 法 ee 和 欧 氏 距离 压缩 
可 变 类 pn UB 
<1l 0 各 种 距离 不 定 
平均 法 Wr nr 
可 法 < 0 各 种 距离 。 ”扩张 





注 ; np， 巩 ，n，74 分 别 是 G。，Gs，G,，Gs 的 样本 数目 。 
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对 于 八 种 系统 聚 类 方法 ， 使 用 的 情况 和 优 劣 各 不 相同 。 不 同 的 聚 类 方法 各 有 
优点 ， 但 也 存在 其 欠缺 的 一 面 。 最 短 距离 法 分 类 最 为 简单 ， 应 用 也 较 多 ， 但 当 两 
类 合并 后 与 其 他 类 的 距离 是 所 有 距离 中 的 最 小 者 ， 从 而 缩小 了 新 合并 类 与 其 他 类 
的 距离 ， 产 生 空间 收缩 ， 因 而 其 灵敏 度 比 较 低 。 最 远 距离 法 正好 与 最 短 距离 法 相 
反 ， 两 类 合并 后 产生 空间 扩张 。 中 间距 离 法 既 不 是 采用 两 类 间 最 近 距 离 ， 也 不 是 
采用 最 远 距离 ， 而 是 采用 介 于 最 近 与 最 远 之 间 的 距离 。 重 心 法 有 较 好 的 代表 性 ， 
但 计算 繁琐 ， 而 且 没有 充分 利用 各 样本 的 信息 。 类 平均 法 被 认为 是 较 好 的 方法 之 
一 ,但 在 递 推 公式 中 没有 反映 类 Gr 和 类 G, 的 距离 ， 这 是 其 不 足 的 一 面 。 在 可 变 
法 和 可 变 类 平均 法 中 加 进 了 8 因子， 但 就 具体 的 问题 确定 8 值 不 是 易 事 。 离 差 平 
方 和 法 是 八 种 方法 中 最 有 统计 特点 的 一 种 方法 ， 它 基于 方差 分 析 的 思想 ， 所 以 如 
果 分 类 得 当 ， 同 类 样本 之 间 的 离 差 平 方 和 应 当 较 小 ， 而 类 间 的 离 差 平方 和 应 当 
较 大 。 


例 4.6 如 图 4-6 所 示 ， 以 长 江 流域 为 例 ， 选 取 20 个 监测 站 点 ， 对 其 水 质 
污染 水 平 进行 类 型 划分 及 差异 性 程度 分 析 。 









时 监测 站 
容重 要 地 
加 省 会 城市 


图 4-6 长 江 流域 监测 站 图 


(1) 聚 类 指标 选择 
选取 如 下 5 项 指标 作为 对 长 江 流域 20 个 监测 站 点 水 质 污染 水 平 进行 聚 类 分 
析 的 基础 指标 : 


@DO 一 溶解 氧 '， 反 映 水 体 自净 能 力 大 小 ; 
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@BOD; 一 一 生化 需 氧 量 ,反映 水 体 中 能 被 生物 降解 的 有 机 需 氧 污染 物质 
含量 ; 

@@ 高 锰 酸 盐 指数 一 一 反映 水 体 中 部 分 有 机 耗 氧 物质 含量 的 指标 ; 

@NH:-N- 一 氨氮， 反映 水 体 受 含 所 有 机 物 污染 程度 的 指标 ; 

回 挥发 酚 一 一 反映 水 中 酚 类 有 毒物 质 的 含量 的 指标 。 








表 4.10 1997 年 1 月 和 7 月 各 站 点 水 环境 监测 指标 实测 值 单位，mg/L 
标 指 标 
DO 高 锰 酸 二 NHs-N 挥发 酚 | DO 高 鳃 本 A NH;-N 挥发 酚 
盐 指数 盐 指数 





可 枝 花 10.4 2.3 3.8 0.16 0.002| 8.9 5.0 1.8 0.21 0.000 
望 江 楼 0.8 8.2 6.6 3.91 0.031| 0.8 8.2 6.6 3.91 0.031 
高 场 10.0 2.7 1.4 0.22 0.004| 8.0 31 16 0.26 0.000 


0. 
1.5 0.38 0,000 


朱 沱 1.4 16 11 0.37 0.000| 7.2 1.4 

寸 滩 10.5 15 18 04 0.000| 6.7 1.8 15 0.46 0000 
贵阳 3.6 23.7 71.3 13.05 0.020| 6.0 22 19 118 0.000 
张家界 10.2 2.1 14 0.07 0.000| 8.4 14 10 037 0.000 
吉首 10.2 28 50 075 0.003| 7.4 24 11 047 0.000 
芷 :他 和 2 二 9 1.3 0.06 0.000| 7.0 2.5 0.4 01 0.000 
坝 上 10.3 36 18 0.00 0.000| 6.6 2.1 0.8 0.00 0.000 
津 市 10.4 18 0.7 035 0.000| 8.5 2.2 0.9 0.22 0.000 
石门 104 17 0.8 036 0.008| 7.1 2.4 1.2 0.58 0.000 
益阳 103 17 0.6 0.49 0.000| 6.9 16 11 0.24 0.000 
湘潭 9.6 24 04 11 0.007| 5.3 27 03 0.18 0.000 
株洲 54 2.8 11 0.28 0.000| 6.2 2.5 1.1 010 0.006 
衡阳 6.8 23 29 0.49 0.007| 7.1 3.3 11 0.20 0.000 
长 沙 10.3 27 17 135 0.000| 68 20 04 0.50 0.002 
吉安 98 20 2.8 0.00 0.000| 5.6 24 14 0.17 0.000 
中 山 12.8 2.1 25 0.10 0.000| 7.3 0.8 1.2 000 0.027 
宣 城 14.6 1.0 3.6 0.00 0.000 8.1 le2 区 0.08 0.000 











(2) 系 统 聚 类 计算 


@ 用 标准 差 标准 化 方法 〈 见 本 章 4.2 节 ) 对 5 项 指标 的 原始 数据 进行 处 理 ， 


见 表 4.11。 


回采 用 欧 氏 距离 〈 见 本 章 4. 3. 1) 测度 20 个 监测 站 点 之 间 的 样本 间距 离 ， 见 


Di ，D; (分 别 表示 1 月 份 和 7 月 份 ) 。 


@ 选 用 最 远 距 离 法 计算 类 间 的 距离 ， 并 对 样本 进行 归 类 ， 见 图 4 一 7。 
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表 4.11 标准 差 标准 化 法 处 理 后 的 数据 

各 指 标 指 标 

站 i 1 月 份 二 7 月 份 

点 “DO 二 指数 BOD， NHB-N 挥发 酚 | DO 雪 指 数 BOD， NH,-N 挥发 酚 
1 03684 —0.2550 —0.1208 —0.3580 —0.2693| 12725 1.5648 0.2925 —0.3274 —0.3795 
2 一 2870 09632 00640 0969 | 3.6170 40871 水 1429 和 1856 
3 0245 -1724 一 0293 —0.3370 一 0028| 0.7284 03463 01344 —0.2670 —0.3795 
4 03684 —0.3995 —0.299] —0.2844 —0.5259| 0248 —0.7439 0053 —0.120 一 03795 
5 G4019 —0.4202 一 02529 —0.2563 —0.5259|-0.0574 —0.4874 0053 —0.0254 —0.3795 
6 一 L9091 业 1637 43362 41618 a 一 2309 03716 4845 一 03795 
7 C014 -02963 —0.2793 —0.3896 —0.5259| 0.9702 —0.7439 —0.3399 一 01341 一 03795 
8 03014 —0.1518 —0.0416 —0.1511 —0.1411| 0.3657 —0.1026 —0.2609 —0.0133 一 03795 
9 —0.0335 —0.3789 —0.2859 —0.3931 —0.5259|| 0.1239 —0.0385 —0.8143 —0.4482 —0.3795 
10 0.3M49 0034 —0.229 —0.4141 osesg)-o ns —0.2950 —0.4980 一 05811 —0.3795 
11 03684 —0.3582 —0.3255 —0.2914 —0.5259|| 1.0307 —0.2309 —0.4190 —0.3153 —0.3795 
12 0.3684 一 03789 —0.3189 —0.2879 0502| 0.1844 一 1026 一 1818 0.1196 —0.3795 
13 03M9 —0.389 —0.3321 —0.223 | 00635 —0.6157 一 209 一 2912 一 03795 
1 QI05 —02M44 一 0353 —00074 043719|-09387 Qo898 —0.8933 一 03637 —0.3795 
15 —1.3063 一 01518 —0.2991 —0.3159 —0.5259|0.3597 一 0085 —0.2609 一 046003 0.3105 
16 —0.8373 —0.2550 —0.1803 —0.2423 03719| O184 04746 —0.2609 —0.3395 一 03795 
17 03349 一 01724 —0.2595 0.0593 一 0559| 0.0030 —0.3591 —0.8143 0.0230 一 01495 
18 04041675 —0.3169 一 01869 —0.4141 一 0559|0724 —0.1026 —0.0237 —0.3758 —0.3795 
19 11723 —0.2%63 —0.2067 —0.3790 —0.5259| 0.3053 —1.1287 —0.1818 —0.5811 2.7256 
20 1752 —0.5234 —0.130 一 0 和 41 一 0.8722 02134 一 04845 一 03795 


中 07889 
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监测 站 点 (1 月 份 》 


图 4-7 1997 年 1 月 份 20 个 水 质 监测 站 点 最 远 距离 聚 类 图 
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由 图 4-7 及 表 4.11 可知 ，1997 年 1 月 份 20 个 水 质 监测 站 点 水 质 污染 水 平 
差异 性 程度 分 为 五 类 较 合适 , 即 11,3, 4, 5, 7, 8, 9, 10, 11, 12, 13, 14， 
17，18) 为 一 类 ; (19，20) 为 一 类 ; {15，16} 为 一 类 ; 2，6 号 两 监测 站 点 不 
能 归 类 ， 故 各 自 为 一 类 。 其 中 2，6 号 监测 站 点 水 质 恶 劣 ， 按照 GB 3838 一 2002 
地 表 水 环境 质量 标准 ， 五 项 监测 指标 中 只 有 一 项 为 W 类 水 质 ， 其 余 均 属 V 类 水 ， 
2，6 号 监测 站 点 1 月 份 整体 水 质 均 为 V 类 水 。 
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监测 站 点 (7 月 份 ) 


图 4-8 1997 年 7 月 份 20 个 水 质 监测 站 点 最 远 距离 聚 类 图 
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由 图 4-8 及 表 4.11 可 知 ，1997 年 7 月 份 20 个 水 质 监测 站 点 水 质 污染 水 平 
差异 性 程度 分 为 五 类 较 合 适 , 即 13，4，5，7，8，9，10，11，12，13，16， 
17，20} 为 一 类 ; 16，14，15，18} 为 一 类 ; 1，2，19 号 三 个 监测 站 点 不 能 归 
类 。 按 照 GB 3838 一 2002 地 表 水 环境 质量 标准 ，1 号 站 点 水 质 基本 属 焉 类 水 质 ; 2 
号 站 点 7 月 份 与 1 月 份 水 质 相 同 ， 因 为 该 地 区 汛期 水 量 虽 增 大 ， 但 排污 量 也 相应 
增 大 ; 19 号 监测 站 点 水 质 较 好 ， 五 项 监测 指标 中 只 有 挥发 酚 为 W 类 水 质 ， 其 余 
均 属 I 类 水 质 。 





【思考 题 4] 


1. 给 出 聚 类 分 析 数据 表 4. 12 的 明科 夫 斯 基 距 离 矩 阵 和 相似 系数 矩阵 。 

要 求 ，(1) 采用 标准 差 标准 法 对 聚 类 数据 进行 标准 化 ， 并 求 p==4 时 的 明科 夫 斯 基 距 离 
和 矩阵; 

(2) 采用 极 差 标准 化 法 对 聚 类 数据 进行 标准 化 ， 求 聚 类 对 象 之 间 的 夹 角 余弦 矩阵 。 





表 4.12 聚 类 数据 

聚 类 对 象 要 。 素 
1 0.046 0.087 0.031 0.038 0. 008 0.0220 
2 0.049 0.055 0. 100 0.110 0.022 0.0073 
3 0.038 0.130 0.079 0. 170 0.058 0.0430 
4 0.034 0.084 0.058 0. 160 0. 200 0.029 0 
5 0.084 0.066 0.029 0.320 0.012 0.0410 
6 0.064 0.072 0.100 0.210 0.028 1.3800 
Ly 0.048 0.089 0.062 0.260 0.038 0.036 0 
8 0.059 0.055 0. 100 0. 110 0.022 0.007 3 
9 0. 068 0. 130 0.079 0.170 0.058 0.0430 
10 0.074 0.084 0.058 0.160 0. 200 0.0290 





2. 试 对 长 江上 游 望 江 楼 1993 一 2000 年 1 月 份 水 环境 监测 指标 ( 表 4. 13) 使 用 最 短 距离 聚 类 
法 作 聚 类 分 析 。 

要 求 : 采用 极 差 标准 化 处 理 原始 数据 ， 再 求 两 两 年 份 间 的 欧 氏 距离 ， 最 后 使 用 最 短 距离 
聚 类 法 作 聚 类 分 析 。 
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表 4.13 望 江 楼 1 月 份 水 环境 监测 指标 (1993 一 2000 年 ) 单位 : mg/L 
指 标 
年 份 
DO 高 鳃 酸 盐 指 数 。 BOD; NH;-N 挥发 酚 鳃 

1993 7.8 2.9 6.2 0.47 0. 009 0. 000 
1994 人 1 7.9 47.8 11.60 0.004 0.000 
1995 2.1 9.4 31.8 3. 88 0. 004 0. 000 
1996 0.6 9.9 32.6 8.01 0.040 0.011 
1997 1.6 3.9 14.9 10, 50 0.014 0. 000 
1998 0.7 9.8 18.4 2.53 0.023 0. 000 
1999 0.9 10.1 41.0 2.57 0.016 0. 000 
2000 1.4 6.2 24.9 6.22 0.018 0. 000 





3. 某 化 工厂 在 附近 地 区 挑选 了 有 代表 性 的 8 个 大 气 取样 点 ， 测 定 其 中 6 种 气体 的 浓度 。 
具体 数据 如 下 表 4. 14， 试 用 聚 类 分 析 分 别 对 变量 和 大 气 污染 地 区 进行 分 类 评价 。 
要 求 : 1) 采用 总 和 标准 化 法 处 理 数据 ， 然 后 采用 夹 角 余 弦 法 求 6 种 气体 〈 指 标 ) 间 相 


似 系数 ， 最 后 选择 最 远 距 离 法 进行 聚 类 分 析 。 


(2) 采用 标准 差 标准 化 法 处 理 原始 数据 ， 采 用 欧 氏 距离 测度 8 个 样 点 间距 离 ， 最 后 用 最 


短 距 离 法 计算 类 间距 离 。 并 对 样本 进行 归 类 。 











表 4.14 各 地 区 大 气 浓度 值 单位; mg/L 
气 体 
样 点 a 
氨 硫化 所 SO: 碳 4 环 氧 氧 丙 烷 。 环 已 烷 
1 0.056 0.084 0.031 0.038 0.008 1 0.022 0 
2 0.049 0.055 0. 100 0.110 0.022 0 0.007 3 
3 0.038 0.130 0.079 0.170 0.058 0 0.043 0 
4 0.034 0.095 0.058 0.160 0.2000 0.029 0 
有 0.084 0.066 0.029 0. 320 0.0120 0.0410 
6 0.064 0.072 0.100 0.210 0.0280 1.3800 
学 0. 048 0.089 0.062 0.260 0.038 0 0.036 0 
8 0.069 0.087 0.027 0.050 0.0890 0.021 0 
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4. 某 地 区 10 个 样 地 A 层 土壤 重金 属 含量 测定 结果 如 下 表 4. 15， 试 用 最 远 距离 聚 类 法 对 7 
种 重金 属 元 素 进 行 聚 类 ， 要 求 聚 为 3 类 。 

要 求 :1) 用 标准 差 标准 化 法 对 土壤 中 重金 属 元 素 的 测定 结果 进行 处 理 。 

(2) 采用 欧 氏 距离 测度 10 个 监测 站 点 之 间 样 本 的 距离 。 

《3) 选用 最 远 距离 法 计算 类 间距 离 ， 并 对 样本 进行 归 类 。 





表 4.15 土壤 重金 属 测定 结果 单位: mg/kg 

序号 Cd Cr Cu Ni Pb Hg As 
1 0. 221 89.52 42. 66 32. 63 46. 50 0. 530 10. 90 
2 0. 462 57. 21 46. 49 25. 42 27.35 0.082 7.82 
3 0. 132 73. 28 31.40 34. 38 37. 98 0.370 11.47 
4 0. 109 57. 88 25.70 25. 82 31.11 0.114 7.54 
5 0.078 44. 57 36. 60 22.06 22. 65 0.187 7.39 
6 0. 129 63. 34 22. 63 26. 85 23. 86 0.033 6.90 
F 0.132 74. 83 18. 57 31.71 32. 54 0.137 9.08 
8 0.170 73. 32 56. 27 41. 84 27. 45 0.746 10, 46 
9 0. 202 86. 26 63.34 51.04 33.42 0.304 10.70 

10 0.119 68. 62 12. 45 25.79 28. 23 0.056 7.07 





5. 陕西 、 广 西 、 河南、 江苏 和 云南 5 省 的 20 项 水 安全 评价 指标 及 其 取 值 如 下 表 4. 16( 韩 
宇平 等 ，2003)， 试 用 极 差 的 标准 化 方法 处 理 数据 ， 然 后 用 欧 氏 距离 法 求 指标 间 的 距离 ， 最 后 
采用 相似 系数 法 对 指标 聚 类 。 








表 4.16 水 安全 指标 值 
指 标 陕西 广西 河南 江苏 云南 
Ci 人 均 水 资源 量 /10' mm 0.098 0.355 0.072 0. 058 0. 572 
C: 公顷 均 水 资源 量 /104m 0. 690 3.615 0.825 0. 855 3, 825 
C; 地 表 水 利用 程度 /” 13. 157 17. 619 18.407 134.752 5.565 
C, 地 下 水 利用 程度 /% 28. 500 3.013 41.572 10.739 0. 837 
G; 工业 万 元 产值 用 水 量 /mm 71 192 66 81 114 


Gs 农业 用 水 综合 定额 /mm 303 1176 197 478 593 





第 4 章 环境 系统 聚 类 分 析 








续 表 
指 标 陕西 广西 河南 江苏 云南 
Cr 人 均 用 水 量 /mm 220 650 220 600 340 
音信 面积 COD 排 放量 / 1. 587 4.335 4.913 6. 156 0.775 
(te km *) 
G 工业 废水 处 理 排放 达标 率 /% 80.880 74.000 91.520 95.890 79.120 
Cn 级 以 上 水 质 级 别 占 总 河 长 
55. 900 。 54. 000 .0 
比例 /% 5 72.400 61.200 23.000 
Cu 侵蚀 模 数 指数 1.000 0. 264 0. 149 0.094 0. 242 
Cn 荒漠 化 指数 0.185 0. 000 ,005 0. 000 0. 009 
Cn 森林 覆盖 率 指数 0.474 0.497 0.202 0.074 0. 482 
Cn 洪水 受灾 面积 率 /% 3.852 5.309 。 23.920 1.580 5.840 
Cis 干旱 受灾 面积 率 /% 32.098 22.687 29.592 37.537 3. 208 
Cs 区 域 工农 
dq 人 80.578 85.342 304.838 805.433 51.474 
010' 元 "km ) 
Co 单位 出 可 蔷 水 工程 序 守 / 1.768 9.527 23.715 17.801 2.170 
(mi » km -2) 
Cu 堤防 保护 耕地 面积 率 /中 5.914 5.332 49.060 94.518 5. 705 
Cs 人均 口粮 /kg 302.108 340.499 443.118 417.666 342.304 
粮食 单产 /(kg*， hm *) 2 850 4 181 4 542 5 857 3 463 
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第 5 章 环境 模糊 聚 类 分 析 


在 环境 数据 分 类 中 ， 常 用 的 分 类 方法 有 多 元 统计 中 的 系统 聚 类 法 、 动 态 聚 类 
法 、 图 论 聚 类 法 等 。 然 而 现实 的 分 类 问题 大 多 伴随 模糊 性 ， 类 与 类 之 间 并 无 清晰 
的 界限 ， 因 此 用 模糊 数学 的 方法 解决 这 些 聚 类 问题 更 为 确切 。 模 糊 聚 类 分 析 已 在 
环境 科学 、 国 民 经 济 、 社 会 科学 、 自 然 科学 中 得 到 广泛 应 用 ， 如 在 环境 领域 中 党 
用 到 的 “水 污染 程度 ”的 界线 就 是 模糊 的 ， 可 以 采用 模糊 聚 类 分 析 法 来 解决 这 类 
问题 。 所 谓 环境 模糊 聚 类 分 析 就 是 在 环境 数据 分 类 中 ， 按 照 一 定 要 求 和 规律 对 环 
境 模糊 性 问题 加 以 处 理 ， 一 般 先 计 算 各 样本 (或 变量 ) 间 的 相似 系数 、 相 关系 数 、 
距离 或 其 他 表征 相似 程度 的 量 来 建立 样本 (或 变量 ) 间 的 模糊 关系 ; 再 将 模糊 关系 
改造 为 模糊 等 价 关 系 ; 然后 ， 根 据 模糊 等 价 关系 ， 选 取 不 同 的 截 集 ， 将 样本 分 成 
若干 类 ; 最 后 完成 模糊 聚 类 分 析 。 它 的 特点 是 : 聚 类 的 结论 并 不 纯粹 地 表示 对 象 
绝对 地 属于 某 一 类 或 绝对 地 不 属于 某 一 类 ， 而 是 以 白化 的 特征 值 表征 了 对 象 在 什 
么 程度 上 相对 地 属于 某 一 类 。 其 明显 的 用 途 是 对 所 研究 的 环境 问题 的 样本 (或 变 
量 ) 进 行 合理 的 分 类 

本 章 的 主要 内 容 是 : 
模糊 集 理 论 ; 
模糊 相似 关系 和 模糊 等 价 关 系 ; 
模糊 聚 类 分 析 步 又 ; 
传递 闭 包 法 ; 
环境 应 用 。 


符合 某 个 特定 概念 的 全 体 对 象 ， 叫 做 该 概念 的 外 延 。 没 有 明确 外 延 的 概念 ， 
叫做 模糊 概念 ( 魏 世 孝 等 ，2001)。 模 糊 现象 是 一 种 普遍 存在 的 现象 。 各 门 学 科 
尤其 是 人 文 、 社 会 学 科 、 环 境 科学 及 其 他 “ 软 科 学 ”的 数字 化 、 定 量化 趋向 把 模 
糊 性 的 数学 处 理 问 题 推 向 中 心地 位 。 特 别 是 计算 机 科学 的 发 展 ， 要 使 计算 机 能 像 
人 脑 那样 对 复杂 事物 具有 识别 能 力 ， 就 必须 研究 和 处 理 模糊 性 。 对 于 模糊 性 ， 有 
两 种 截然 相反 的 处 理 方法 : 传统 的 方法 是 强行 划 清 界限 ， 人 为 地 使 每 个 对 象 都 有 
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明确 的 类 属 ， 即 把 模糊 性 简化 为 精确 性 来 处 理 ; 另 一 类 方法 是 承认 事物 固有 的 模 
糊 性 ， 用 元 素 对 集合 的 隶属 度 来 刻画 事物 从 属于 某 类 到 不 属于 某 类 的 逐步 变化 
( 许 国志 等 ，2001) 。 

1965 年 ， 美 国 加 利 福 尼 亚 大 学 控制 论 专家 扎 德 〈L，A，Zadeh) 教授 的 
Fuzzy sets 的 著名 论文 ， 宣 告 了 “模糊 数学 ”的 正式 诞生 。 模 糊 数学 可 称 为 是 继 
经 典 数学 和 统计 数学 之 后 数学 领域 的 又 一 个 新 发 展 。 它 用 隶属 函数 来 刻画 元 素 对 
集合 属于 程度 的 连续 过 渡 性 ， 即 元 素 从 属于 集合 到 不 属于 集合 的 渐变 过 程 ， 中 间 
经 历 了 由 量变 到 质变 的 连续 过 渡 过 程 ， 也 即 事物 具有 所 谓 的 差异 中 介 过 渡 性 。 将 
经 典 集合 的 二 值 逮 辑 {0，1) 扩展 为 [0，1] 区 间 内 的 连续 值 逻辑 ， 为 描述 和 反 
映 客观 世界 中 各 种 模糊 事物 和 现象 提供 了 有 效 的 手段 ( 李 荣 钧 ，2002)。 模 糊 数学 
并 不 是 “模糊 ”的 数学 ， 它 是 采用 严格 的 、 精 确 的 数学 手段 处 理 模糊 现象 的 一 门 
数学 。 模 糊 数学 是 传统 数学 的 延伸 、 推 广 和 补充 ， 与 传统 数学 一 样 ， 有 着 严格 的 
数学 理论 基础 。 从 认识 发 展 的 观点 来 看 ， 它 实际 上 也 是 对 客观 世界 的 一 种 精确 反 
映 ， 体 现 了 人 类 认识 能 力 的 深化 ， 是 以 模糊 达到 精确 的 手段 。 




















5.1.1 模糊 集 的 基本 概念 








模糊 集合 论 是 用 隶属 函数 来 刻画 元 素 是 否 属于 集合 的 识别 过 程 。 把 被 讨论 的 
对 象 的 全 体 称 为 论 域 X， 本 节 将 简要 介绍 论 域 X 上 模糊 集合 的 概念 和 表示 方法 。 

定义 1 称 A 是 论 域 X 上 的 一 个 模糊 子 集 (简称 模糊 集 )， 如 果 入 被 一 个 从 
X 到 [0, 1] 区 间 的 函数 jx 所 完全 刻画 : 

ua: X=[0, 1] 
Tx>pua(T), (VIEX) 

ux 称 为 模糊 子 集 A 的 隶属 函数 ，yuz (zx) 称 为 x 隶属 于 A 的 隶属 度 ， 简 记 为 
Alz), 

当 /的 值 域 由 [0, 1] 区 间 简 化 为 (0，1) 时 ,jx 就 简化 为 普通 集合 的 特征 
函数 。 


5.1.2 模糊 集 的 表示 方法 











在 给 定 的 论 域 X 上 可 以 有 许多 的 模糊 集 ， 记 义 上 的 模糊 集 全 体 为 F(X)， 即 
F(X)= {pa lyr: X=>[0, 1]} 
称 F(X) 为 X 上 的 模糊 宪 集 。 显 然 普通 短 集 是 模糊 突 集 的 子 集 。 
模糊 集 常用 的 表示 方法 有 以 下 4 种: 
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(1) 向 量 表示 法 
A=(A(zi) , A(zs), *…, ACz,)) 
(2) 序 列表 示 法 ( 序 偶 法 ) 
A={(z, A(z))|zEX}={(z1, ACz)), (zzs ACz2)), «oy (xn, ACxs))} 
(3) 分 数 表示 法 或 Zadeh 法 
设 论 域 X=(z，z，…，xz)， 则 X 上 的 模糊 集 可 以 写成 ; 
A= ACz)/ ztACrs) /zt tA ) /x 
或 A=ACz)/zi UACr) /zr UUA(z)/z, 
这 里 的 “十 ”或 “U” 并 不 是 求 和 的 意思 ， 它 们 只 是 概括 集合 诸 元 素 的 记号 。 
(4) 解 析 法 或 积分 表示 法 
当 论 域 X 为 实数 集 R 上 的 某 区 间 时 ， 可 直接 用 模糊 集 的 隶属 函数 的 解析 式 
来 表达 该 模糊 集 。 
以 上 的 各 种 表示 方法 是 当 论 域 X 为 有 限 集 的 情况 ， 当 论 域 X 为 无 限 集 的 时 
候 ，X 上 的 模糊 集 可 以 改写 成 : 
A co 


同样 ,这 里 的 “| ”并 不 是 求 积 的 意思 ,只 是 概括 集合 诸 元 素 的 记号 。 


例 5.1 设 论 域 X= {zl mm zi)，z zz zz 属于 
“严重 污染 程度 ”分 别 为 0.0, 0. 5, 0.7, 0.9, 1.0， 则 X 上 的 模糊 集 却 一 “严重 
污染 ”的 表示 方法 可 以 写成 ( 杨 晓 华 等 ，2005) ; 

A=0.0/z1+0.5/zs++0.7/zs+0. 9/z 十 1.0/zs 

或 让 ={(zi，0.0)，(zz，0.5)，(za，0.7)，(ziy 0.9)，(z5， 1.0)} 

例 5.2 设 论 域 X= {zi1， zz)，zy mm Xs 分 别 表 
示 环 境 质量 评价 的 等 级 ， 上 ， 轩 ， 信 ，V 。 某 地 区 环境 质量 评价 的 等 级 属于 等 
级 IT， 卫 ， 夺 ，N，V 的 程度 分 别 为 0.0, 0.1, 0. 6, 0.2, 0.1， 则 X 上 的 模糊 集 
A 二 “ 某 地 区 环境 质量 评价 等 级 ”的 表示 方法 可 以 写成 : 

A=0. 0/z1+0. 1/z:+0. 6/x3+0. 2/z4 十 0. 1/zs 

或 A={(zx1, 0.0), (x2, 0.1), (za, 0.6), (xz, 0.2)， (zs 0;1)} 

例 5.3 设 论 域 六 ={zi zs， a， }，1，ZT2，ZT3，ZX4， Zs 分 别 表示 环 
境 质 量 评价 的 5 个 指标 。 zl，zs，Zzs，Z4，zs 这 5 个 指标 的 重要 性 权重 分 别 为 0. 1， 
0.2, 0.5, 0.2, 0.1， 则 X 上 的 模糊 集 信 一 “重要 性 程度 ”的 表示 方法 可 以 写成 : 

A=0. 1/zi 十 0.2/za 十 0. 5/z3 二 0.2/z4+0. 1/xs 
址 AA={Czis O01), (102 Cnr (Ds (cr 0 2) (i OTN 
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5.1.3 模糊 集 的 运算 


两 模糊 集 之 间 的 运算 ， 实 际 上 就 是 逐 点 对 隶属 函数 作 相应 的 运算 。 已 出 现 了 
多 种 模糊 运算 算 子 ( 杨 纶 标 等 ，2001)。 目 前 最 常用 的 还 是 ZadEh 算 子 ， 现 介绍 
如 下 。 
定义 2 设 A, BEF (U), 车 VuEU, B (uw) <AG(w) 
则 称 信 包含 了 , 记 为 BEA。 车 BCA, 且 ACB,， 则 称 A 与 B 相等 ， 记 为 
有 =B。 显然， 包含 关系 具有 自 反 性 、 反 对 称 性 和 传递 性 。 
定义 3 设 A，BEF (U), A 与 B 的 并 集 、 交 集 与 所 的 补 集 ( 余 集 ) 分 别 为 
AUB , ANB A“, 它们 分 别 由 下 列 隶 属 函 数 完全 刻画 。 
(AUB)(W=max( A(W, BQwW)=AG)V Bu) 
(ANB) 0)=min(AQ), BOD)=AC(u) NBO) 
A (w=1—A(W) 
例如 ， 
坊 一 0. 0/zi 十 0.5/zas 十 0.7/zs 十 0. 9/z 十 1.0/zs 
B=0. 1/zi 十 0. 2/zs 十 0. 5/zs 十 0. 2/z4+0. 1/zs 
则 AUB=0. 1/zi 十 0. 5/za 十 0.7/zs 十 0.9/za 十 1.0/zs 
ANMB=0. 0/zi 十 0. 2/zs 十 0. 5/zs 十 0. 2/zt 十 0. 1/zs 
入 一 1.0/zi 十 0. 5/zs 十 0. 3/zs 十 0. 1/z 十 0.0/zs 
模糊 集 的 并 、 交 、 补 运算 具有 以 下 的 性 质 : 
(1) 交 换 律 AUB=ANB; 
(2) 结 合 律 (AUB)UD5= AUGBUD), (ANB)ND=ANG BND); 
(3) 分 配 律 AU(BND)=(AUB)NUAUD)， 
AN(BUD)=(ANBUAND):; 
Cd) 吸收 律 AUC(ANB)=A, AN(AUB)=A; 
(5) 寡 等 律 AUA=A, ANA= A; 
(6) 对 合 律 (A')' 二 A; 
(7) 两 极 律 ” 论 域 U 和 空 集 人 满足 
UUA=U, UNA= A, GUA=A, TNA=G; 
(8) 对 偶 律 、(AUB)'=A‘ 几 B"， 
(ANB):=A UB; 
特别 指出 ， 模 糊 集 一 般 不 再 满足 互补 律 ， 即 
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AUA‘#U, ANA#G, 
模糊 集 不 再 满足 互补 律 ， 正 是 模糊 集 没 有 明确 的 边界 所 致 。 
例如 ， 
太一 0. 0/z 十 0. 5/zz 十 0.7/zs 十 0.9/zi 十 1.0/zs 
~ Ar=1.0/z1+0. 5/z2+0. 3/x3+0. 1/z4+0. 0/zs 
则 AUA‘=1.0/xz1+0.5/zst0.7/zs+0. 9/z4t1.0/zs#AU 
ANA‘=0. 0/x1+0.5/z:+0. 3/zs 十 0. 1/x4++0. 0/xs#O 


5.1.4 模糊 映射 


定义 4 称 映射 /，f: UF(V) 为 从 U 到 V 的 模糊 映射 。 即 模糊 映射 是 这 
样 的 一 种 对 应 关系 ，U 上 的 任 一 元 素 x 与 V 上 的 唯一 确定 的 模糊 集 对 应 。 
例如 ， 对 于 环境 质量 评价 问题 ， 设 评价 因素 (指标 ) 集 U= (ww，…， ww)， 
i t，Us，*…，un 为 被 评价 对 象 的 各 个 因素 。 评 价 等 级 (评语 ) 集 V 二 {vu， 
芒 ， "Un)， 其 中 双 ，w，…，v 为 各 个 等 级 (评语 )。 对 每 个 单 评价 因素 w (i 二 
1 已 进行 评价 ， 得 到 V 上 的 模糊 集 (mm(uw)，ma(w)，…，mm(Cwm))。 
它 就 是 从 U 到 V 的 一 个 模糊 映射 /。 
定义 5 ”如果 ViEN,， jEM， 其 中 ，N 代表 R 矩阵 的 行 数 ，M 代表 R 矩阵 
的 列 数 ， 都 有 rs E [0，1]， 称 矩阵 R= (rj ),xw 为 模糊 矩阵 。 
例如 ， 
1.000 0.000 0.000 0.000 0.000 
1.000 0.000 0.000 0.000 0.000 
0.000 0.500 0.500 0.000 0.000 
0.000 0.000 0.680 0.320 0.000 
1.000 0.000 0.000 0.000 0.000 
1.000 0.000 0.000 0.000 0.000 
就 是 一 个 模糊 矩阵 。 


定义 6 给 定论 域 U, V 称 UXV 的 一 个 模糊 子 集 ， REFCUXV) 为 U 到 V 
的 一 个 模糊 关系 ， 记 为 U 一 >V。 
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设 有 中 为 集合 = ftw， ww …， ww}) 到 V=(m，m，…，ww) 的 一 个 模糊 关 
系 ，VwEU, wEVGEN, jEM)，, 模糊 关系 及 的 隶属 度 yk (u， 90) 为 ri5， 则 
模糊 关系 R 可 用 如 下 的 模糊 矩阵 R 来 表示 : 

及 一 (my) xn 

其 中 ,rs 二 pg (ui, vw)€E[L0, 1]。 

对 于 wuEU,，vEV，R(u，v) 刻 画 了 u 对 于 的 相关 程度 。 如 果 将 尺 限制 为 
UXV 的 分 明 集 ， 则 此 时 玉 即 为 普通 的 关系 ， 所 以 模糊 关系 是 普通 关系 的 推广 。 

一 般 地 说 ， 由 从 局 到 的 一 个 模糊 映射 了 ， 可 以 确定 一 个 模糊 关系 矩阵 R。 

例如 ， 对 于 环境 质量 评价 问题 ， 济 和 人 计价 因素 06 这 2，…，) 进 行 
评价 ， 得 到 V 上 的 模糊 集 (ra ，riz，*…，rn)。 它 是 从 吕 到 V 的 一 个 模糊 映射 /， 
由 上 可 以 确定 一 个 模糊 关系 矩阵 尺 : 











Vr 门 m 
R= ral Tom 
Ta 2 
例如 , 设 U= (uw，u:，us) 表示 父辈 的 三 :不 人 的 集合 V= (w，w， 
由 ，w， 丰 为 他 们 子 辈 的 集合 ,RE FCUXV) 表 示 相像 关系 ， Li 
0 0.2 , 0.3 0.6 
i i a a 
0.7 0.4 0.6 0.9 





+ 十 十 
(ay V3) (uss tI) (ay Wa) (Cuw) 

易 见 玉 是 U 到 V 的 模糊 关系 ， 而 ri 二 ya (wu;，w) 表示 对 vw 的 相像 程度 ， 没 
有 写 出 的 项 表示 相像 程度 为 0， 即 基本 上 不 相像 。 

由 定义 可 见 ， 模 糊 关 系 实质 上 是 一 种 模糊 集合 ， 所 以 有 关 模 糊 集合 的 一 切 性 
质 对 其 都 成 立 。 

定义 7 设 REF(UXV), QEF(VXW)， 则 称 模糊 关系 RRR。QEF(UXW) 
为 玉 与 Q@ 的 复合 ,其 中 (R。@)(u， w= YVR, vw) AQCv, w)), 

若 U=V, 而 有 EF (UXU), 则 记 

R:=R 。 R, R=R: 。R, ., R"=R"! 。 R, . 

式 中 ,“V”“ 信 ”分别 为 “ 取 大 ”“ 取 小 ”运算 。 


模糊 等 价 关系 的 定义 如 下 : 
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定义 8 设 论 域 U 为 有 限 集合 ，U 上 的 一 个 模糊 关系 尽 ， 与 其 对 应 的 模糊 矩 
阵 R 一 (m )wxn， 车 满足 : 

(1) 自 反 性 : 六 一 1; 

52) 对 称 性 : ry 二 i; 

(3) 传 递 性 : R。RSR。 

则 称 R 二 (i ),xo 是 一 个 模糊 等 价 和 矩阵 ， 其 关系 是 模糊 等 从 关系。 若 只 满足 自 
反 性 和 对 称 性 则 为 相似 关系 。 

例如 ， 这 里 模糊 相似 算 阵 及 平方 定义 为 : 

及 一 (Si )wxn 


式 中 ，Sj 二 VCra rx)，“V”“ 和 ”分别 为 “ 取 大 ”“ 取 小 ”运算 。 
设 








1 .5 站 语 
R=|05 Td "Qs 
0.8 0.5 1.0 
显然 R 具 有 自 反 性 ， 由 
1.0 0.5 0.8] [1.0 0.5 0.8] [1.0 0.5 0.8 
R。R 一 |0.5 1.0 0.5|。|0.5 1.0 03 -les 1.0 0.5|=R 
0:8 0.5 1.0) l0.8 0.5 1.0) l0.8 0.5 1.0 

















可 见 R 也 具有 传递 性 ， 故 R 是 模糊 等 价 和 矩阵 。 
定义 9 4 截 矩 阵 R;: 设 和 矩阵 R=(ry),x,， 即 : 


rn rs Tim 

ra re Tam 
性 蚂 

ra Ya Fes 


记 R= (rs (A)),xms 
若 
w=1 (rs >) 
C 0 (rn<24) 
则 称 R 为 R 的 4 截 矩 阵 Ri。 
下 面 的 3 个 定理 是 模糊 聚 类 分 析 所 需要 的 ， 这 里 只 说 明 不 证 明 。 
定理 1 设 R 是 U 二 {ww，w。，…，w) 的 一 个 自 反 、 对 称 关系 ， 即 R 是 nn 阶 
模糊 相似 和 矩阵 ， 则 存在 一 个 最 小 的 自然 数 k(k<<n)， 使 得 及 为 模糊 等 价 矩 阵 ， 
且 对 于 一 切 大 于 上 的 自然 数 ww, 恒 有 R* 二 R:，R' 称 为 R 的 传递 包 和 矩阵 ， 记 
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为 1(R)。 

定理 2 ”如 果 模糊 关系 矩阵 R 是 模糊 等 价 关系 ， 则 对 于 任意 X*EL0，1]， 所 
截 的 4 截 矩 阵 R 也 是 等 价 关系 。 

根据 这 个 定理 ， 在 模糊 等 价 关 系 R 确定 之 后 ， 对 给 定 的 数 XE[L0，1]， 便 可 
得 到 一 个 相应 的 普通 等 价 关系 R， 可 以 决定 一 个 4 水 平分 类 。 

定理 3 ”如果 0< si: 委 1， 则 Ri 所 分 出 的 每 一 类 必 是 R 的 某 一 类 的 子 类 。 
称 及, 分 类 法 是 R 分 类 法 的 细 化 。 

根据 上 述 3 个 定理 ， 可 以 进行 聚 类 分 析 操作 。 例 如 ， 当 所 给 矩阵 关系 是 相似 
关系 ， 由 定理 1 可 知 ， 自 乘 若干 次 后 ， 就 可 以 获得 等 价 关 系 矩 阵 ， 然 后 再 由 定理 
2 和 定理 3 加 细 分 类 。 


模糊 聚 类 分 析 步 骤 可 以 概括 为 ; 数据 标准 化 ， 模 糊 相似 矩阵 的 建立 ， 聚 类 
分 析 。 


5.4.1 数据 标准 化 


1. 数据 标准 化 的 作用 

在 实际 问题 中 ， 不 同 的 数据 可 能 有 不 同 的 量 纲 。 为 了 使 不 同 量 纲 的 数据 也 能 
进行 比较 ， 需 要 对 数据 进行 适当 的 变换 。 根 据 模糊 矩阵 的 要 求 将 数据 压缩 到 区 间 
[0, 1], 

2. 数据 变换 

设 论 域 上 = {wu ，us，…，w) 为 被 分 类 的 对 象 或 元 素 ， 每 个 元 素 又 由 mm 个 数 
据 表示 ， 对 第 i 个 元 素 有 : 





WwW={zas Zea * Tm} (i=1, 2, ,1) 
这 时 原始 数据 矩阵 为 : 
Tn Ti Tin 
Ta Xn Tm 
Tu Tm Tm 


(1) 标准 差 变 换 
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a (i=1, 2, *, ns 大 一 1，2，…， 1m) 











其 中 ， a, n= iD zy 

经 过 变换 后 ， 每 个 变量 的 均值 为 0， 标 准 差 为 1， 并 可 以 消除 量 纲 的 影响 ， 
但 不 一 定 在 [0，1] 区 间 上 。 

(2) 极 差 变换 


— min, {xs} 





Za 一 max ee ty (k=1, 2, **, m) 
le 


经 过 极 差 变换 后 ， 消 除了 量 纲 的 影响， 且 变 换 后 的 数据 一 定 在 [0，1] 区 
间 上 。 


5.4.2 模糊 相似 窍 阵 的 建立 








建立 模糊 相似 矩阵 ， 即 标 出 衡量 被 分 类 对 象 间 相 似 程度 的 统计 量 ry (i，j 王 
tb 2 me 

设 论 域 U= {wuw， ws，…，w,}， 其 中 每 个 元 素 为 一 个 样本 ,建立 U 上 的 相 
似 关系 R，R 表示 相似 矩阵 7。 每 个 样本 为 m 维 向 量 , wi 二 【za zz， 
5 

计算 可 以 有 多 种 方法 ， 本 节 仅 介绍 以 下 三 种 ( 李 鸿 吉 ，2005)。 

1。， 相 似 系 数 法 

(1) 数量 积 法 


1 人 一 放 
-gs (Ce) 
R= Ses) 
显然 | 元 | EL[0，1]， 如 果 中 出 现 负 数 , 需要 再 进行 变换 : 


=(ry+1)/2 
则 EL0, 1]。 
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(2) 夹 角 余弦 法 
Sz 
Re et 
DD 
(3) 相关 系数 法 
2 la=z || zs —z| 
ee 
2， 距 离 法 
(1) 绝对 值 倒数 法 
1 人 三 力 
人 
2 |x —#% | 


式 中 ，M 需要 适当 选取 , 使 0<rjs 二 1。 
(2) 绝对 值 指数 法 


ry =exp(- > | | 
(3) 直接 距离 法 


方 王 1 一 cd(uy， w) 


其 中 ，c 为 适当 选取 的 系数 ,使 得 0<rs 三 1。d (ws，wj) 为 距离 ， 经 常 使 用 的 距 


离 有 以 下 几 种 。 
海 明 距离 : 
dl(u, uw)= bp | zz 一 zz | 
t=1 
欧 氏 距离 : 
d(u, Wj)= /时 昼 一 站 
k=l 
切 比 雪夫 距离 : 
dl(u, uw)=max | zz 一 zk | (1<k<m) 
3， 主 观 评分 法 


请 专家 直接 对 u; 和 w; 的 相似 程度 评分 ， 也 是 一 种 有 效 的 方法 。 
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(1) 百分制 

采用 百分制 时 ， 将 评 出 的 总 分 数 除 以 100， 即 得 闭 区 间 [0，1] 的 一 个 ry。 
为 降低 主观 性 ， 可 以 请 多 个 专家 参与 评分 ， 再 取 平均 ， 定 出 方 。 

(2) 相似 度 和 自信 度 

假定 请 N 个 专家 组 成 专家 组 ， 这 时 有 ， 


Sn CR)ai (hk) 


Ba (k) 


式 中 ,ry (k) 为 第 站 个 专家 所 给 出 的 ui 和 的 相似 度 ，as (k) 是 专家 对 自己 给 出 
的 相似 度 的 自信 度 。ry 和 as 都 是 在 [0，1] 区 间 上 的 数值 。 





ry = 


5.4.3 聚 类 分 析 


5.4.3.1 模糊 等 价 矩 阵 聚 类 


1， 传 递 闭 包 法 

根据 所 建立 的 模糊 矩阵 R， 一 般 说 来 仅 具 有 自 反 性 和 对 称 性 ， 不 满足 传递 
性 ， 只 是 模糊 相似 矩阵 。 只 有 当 R 是 模糊 等 价 和 矩阵 时 才能 聚 类 ， 故 需要 将 尺 改 
造成 模糊 等 价 窍 阵 。 

由 上 面 的 定理 1 知道 ， 可 以 通过 求 传递 包 将 阶 模糊 相似 甜 阵 R 改造 成 n 阶 
模糊 等 从 矩阵 4CR) 。 从 模糊 矩阵 R 出 发 ， 依 次 求 平方 RR* 一 R' 一 …， 当 第 一 
次 出 现 Re 。 及 一 R' 时 ,表明 R* 已 经 具有 传递 性 ，R* 就 是 所 求 的 传递 包 1(R)。 

在 RR 改造 成 模糊 等 从 矩阵 R* 之 后 可 以 在 适当 的 限定 值 上 进行 截取 ， 可 以 获 
得 所 需 分 类 。 

设 论 域 U= {wi，uws，us，W4，us)， 给 定 模 糊 关 系 : 

1.00 0.50 0.80 0.40 0.45 
0.50 1.00 0.50 0.40 0.45 
R=|0.80 0.50 1.00 0.40 0.45 
0.40 0.40 0.40 1.00 0.40 
0.45 0.45 0.45 0.40 
其 自 反 性 和 对 称 性 是 显然 的 ， 次 站 个 入 相 相似 短 际 ， 乱 验 证 可 知 及 。 及 一 R， 
故 尺 又 是 模糊 等 价 矩 阵 。 根 据 定理 3， 可 以 按 不 同 水 平 4 进行 分 类 。 
(1) 当主 1.00 时 
此 时 只 有 对 角 线 元 素 大 于 等 于 1， 故 对 角 线 元 素 全 变 成 1， 其 余 全 部 为 0， 成 
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为 单位 矩阵 ， 共 分 为 5 类 {ww}，{wuz)，{us}，{wu}，{us}， 把 每 一 个 元 素 分 为 
一 类 ， 是 最 细 的 分 类 。 

(2) 当 4 宇 0.80 时 

此 时 小 于 0. 80 的 元 素 都 变 成 0， 大 于 等 于 0. 80 的 元 素 变 成 1， 即 有 : 











有 二 让 
(a Wy 
R=|1 0 10 0 
四 办 小 站 六 
A 
可 以 看 出 共 分 4 类 :， (i, ws}, {us}， {uw},，{us}。 
(3) 当 )>0. 50 时 
而 We 
区 
R=|1 1 1 0 0 
人 0 
TU 了 
可 以 看 出 共 分 3 类 : (iu, wz ws), (i)， (us}。 
(4) 当 ) 三 0. 45 时 
省 
: 
LO 
2 ks Wh 
et Wt 
可 以 看 出 共 分 2 类: (wa, ww, us, ws), {iu)。 


(5) 当 4 宇 0. 40 时 

和 矩阵 的 所 有 元 素 都 变 成 1， 只 分 成 1 类， 是 最 粗 的 分 类 。 

从 上 述 分 析 可 知 ，》 从 大 到 小 ， 分 类 从 细 到 粗 ， 是 一 个 动态 过 程 。 

传递 闭 包 法 的 运算 量 比较 大 ， 不 适 于 手工 分 类 ， 便 于 计算 机 程序 设计 。 

2 布尔 矩阵 法 

设 R 是 论 域 U= (ws，us，…，w,) 上 的 模糊 相似 矩阵 ， 若 要 得 到 的 元 素 
在 4 水 平 上 的 分 类 ， 使 用 布尔 矩阵 法 的 具体 做 法 如 下 : 

G1) 求 模糊 相似 矩阵 尺 的 X 截 矩阵 Ri ， 显 然 R; 为 布尔 矩阵 。 

(2) 判断 R, 是 否 是 等 价 的 。 如 果 R; 在 任 一 排列 下 都 没有 下 列 形式 的 特殊 子 
矩阵 : 
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DA 1 yy Gyn ei. 
上 让 G 小 是 小 ( |) 
则 R; 具有 传递 性 ， 为 等 价 矩 阵 ， 可 以 证 明 尺 也 是 等 价 窃 阵 。 
(3) 如 果 判 断 R 是 等 价 的 ， 则 由 R; 可 得 U 在 4 水 平 上 的 分 类 。 
(4) 如 果 判 断 及 不 是 等 价 的 ， 只 要 将 R, 中 上 述 特殊 形式 子 和 矩阵 中 的 0 一 律 
改 成 1， 直 到 不 再 出 现 特殊 形式 子 矩 阵 为 止 ， 修 改 后 的 R 为 等 价 窃 阵 ， 可 以 获 
得 1 水平 上 的 分 类 。 


5.4.3.2 直接 聚 类 


1.， 直接 聚 类 法 
在 建立 模糊 相似 矩阵 后 ， 既 不 求 传递 闭 包 KR) ， 也 不 用 布尔 矩阵 法 ， 而 直 
接 从 模糊 相似 矩阵 出 发 ， 利 用 相似 系数 进行 聚 类 。 仍 用 前 述 例子 说 明 。 
设 U= (wuw，uz，usa，tu，us)， 其 模糊 相似 矩阵 为 : 
1.00 0.50 0.80 0.40 0.45 
0.50 1.00 0.50 0.40 0.45 
R=|0.80 0.50 1.00 0.40 0.45 
0.40 0.40 0.40 1.00 0.40 
0.45 0.45 0.45 0.40 1.00 
(1) 取 R 中 的 最 大 值 41 二 1.00( 不 考虑 对 角 线 元 素 ， 又 由 对 称 性 rj 二 rh， 只 
需 考 虑 对 角 线 上 方 元 素 r;)， 可 以 看 出 ， 对 角 线 上 方 没有 等 于 1 的 元 素 。 这 样 ， 
在 为 王 1. 00 水 平 上 的 等 价 类 为 : {wu})，{uz)， {ws}, {wuw)， {us} 。 
(2) 取 R 中 的 次 大 值 *; 二 0.80， 由 于 ma 一 0.80， 故 相似 类 为 {ww，ws)， 
{us}, {uw}, {us}。 
(3) 取 R 中 的 第 三 大 值 43 二 0.50, 由 于 rz 二 rw 二 0.50， 故 相似 类 为 
{tw，wz)，{uz，ta)， 合 并 为 等 价 类 {i uz, ww3)， {wy)，{us)。 
(4) 取 R 中 的 第 四 大 值 4; 二 0.45， 由 于 ris 二 rs 二 rss 二 0.45， 故 相似 类 为 
fia， us)，(uz，us)，{ua，t}， 合 并 为 等 价 类 {i ws， ws, us},，{u4}。 
(5) 取 R 中 的 最 小 值 如 二 0. 40， 所 有 元 素 只 为 一 类 : ia， ws， ws， t4，W)。 
2. 最 大 树 法 
以 分 类 元 素 为 顶点 ， 以 相似 矩阵 元 素 ri 为 X， 画 一 棵 最 大 的 树 ， 见 图 5 一 1。 
砍 断 低 于 4 的 枝 ， 形 成 一 个 不 连贯 的 树枝 图 ， 各 个 连通 的 分 支 便 构成 了 在 4 水平 
上 的 分 类 。 下 面 举例 说 明 。 


在 讨论 矩阵 法 分 类 时 所 获得 的 模糊 相似 矩阵 为 ; 


1.00 0.50 
0.50 1.00 
有 R 一 |0.80 0.50 
0.40 0.40 
0.45 0.45 
其 最 大 树 见 图 5 一 1。 


0.80 
0.50 
1.00 


0.40 
0.40 
0.40 
1.00 
0.40 
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0.45 
0.45 
0.45 
0.40 
1.00 








uy 


us 





图 5-1 


(1) 取 4==1.00， 砍 去 低 于 和 的 枝 ， 这 时 分 5 类 : {10)，{wa)，(us}， 人 和 


{us}s 


(2) 取 4=0. 80， 这 时 分 4 类 :; {ww}，{uz})， 
(3) 取 ) 一 0.50， 这 时 分 3 类 : (ia, ws us), (tn}， {us}s 
(4) 取 ) 一 0.45， 这 时 分 2 类 : {i wes wuss us}, (i)s 
(5) 取 4=0. 40， 这 时 为 1 类: {i uz， Us， WW， us)。 


3， 编 网 法 


已 经 有 了 表 5. 1 所 建立 的 模糊 相似 矩阵 ( 见 “ 最 大 树 法 ”)， 例 如 取 4 二 0. 80， 


建立 4 截 矩阵 : 


R= 


己 口 呈 口 一 


对 和 截 矩 阵 Ruw 进 行 改造 ， 方 法 是 : 对 角 线 上 换 成 元 素 名 称 ; 在 对 角 线 下 方 的 1 
换 成 * ， 截 矩阵 中 的 所 有 的 0 换 成 空格 ， 无 论 在 对 角 线 上 下 与 否 ， 由 * 向 上 引 纵 
线 ， 向 右 引 横 线 ( 只 向 上 和 向 右 引 线 )。 改 造 后 的 矩阵 见 图 5 一 2。 


模糊 聚 类 图 


oo~0 
ooo-~-or 


0 


oOo~ooo 
SS SS 


1 


{iu), (us)s 
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ul 


us 
图 5-2 由 ) 一 0. 80 截 矩 阵 改造 后 的 编 网 图 
在 图 5-2 中，* 将 和 ws 联系 起 来 ,同样 x 将 ws， tw 与 ws 也 建立 了 联 
系 ， 由 此 获得 的 分 类 数 是 2: {i ， ws}, {us t4， Ws)。 
我 们 用 传递 闭 包 法 、 布 尔 矩阵 法 、 直 接 聚 类 法 、 最 大 树 法 及 编 网 法 对 同一 个 
和 矩阵 进行 模糊 聚 类 的 运算 ， 通 过 运算 结果 的 比较 可 以 看 出 ， 这 几 种 聚 类 方法 得 出 
的 结论 基本 一 致 。 


5.4.4 分 类 的 下 检验 


从 上 面 的 一 些 示 例 可 以 知道 ,模糊 诊 类 分 析 是 动态 的 ， 对 于 不 同 的 XEL0，1]， 
可 以 获得 不 同 的 分 类 。 随 着 4 的 变化 而 形成 的 多 种 分 类 对 全 面 了 解 样本 情况 是 有 
利 的 。 但 许多 实际 课题 需要 选择 阔 值 *， 从 而 给 出 一 个 较为 明确 的 分 类 。 用 统计 
学 的 下 检验 方法 可 以 刷 掉 一 些 不 够 格 的 类 ， 使 分 类 变 得 更 为 清晰 。 

设 论 域 U= (iw，u:，…，w,) 是 样本 数 为 的 样本 空间 ， 而 每 个 样本 wu 有 
mn 个 特征 ， 记 为 ww 二 《za，za，…，Zm)， 由 此 可 以 得 到 原始 数据 矩阵 ， 见 
于 Ls 











表 5.1 原始 数据 表 
指 标 
样本 一 
1 2 k m 
Wl TIT Xl Ps TU Tm 
加 这 
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总 体 样本 的 中 心 向 量 为 : 
U= (Ws Usy “0 Ws “4 Wn) 
其 中 : 
,= Dw (k=1, 2, 5% rm) 
es 和 值 的 分 类 数 为 r。 第 7 类 的 样本 数 为 n;， 其 样本 记 为 ui”， 
uy ，…，uP。 第 j 类 到 类 中 心 向 量 为 : 


n= (GP, ,0 B,D) 
式 中 : 
WP=l Da 2 ee m) 
各 
作 下 统计 量 : 
Dl il r= 
F=— 一 
2 2 Nu oa /noe7) 
名 各 
其 中 : 
Min 一 下 | = /2 —u)? 
名 
为 u" 与 & 的 距离 。 
lama | 


为 第 ;类 中 样本 wu 与 中 心 ” 的 距离 。 

下 统计 量 服从 自由 度 为 r 一 1，n 一 r 的 下 分布。 分子 表征 类 与 类 之 间 的 距离 ， 
分 母 表征 类 内 样本 间 的 距离 。F 值 越 大 ， 说 明 类 与 类 之 间 的 距离 越 大 ， 表 示 类 与 
类 之 间 的 差异 大 ， 分 类 明显 。 


表 5.2 模糊 聚 类 的 下 检验 表 
分 类 数 检验 统计 量 下 值 临界 值 F。 


Dn Nan 一 站 1 27Cr 一 1 
二 


TDN /nn 


。。 拒 弛 分 类 数 7 FE 
接受 分 类 数 7 FSE 











Flr—l1, 天 一 他 








统计 推断 
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在 一 定 的 显著 性 水 平 下 (例如 一 0. 05) ， 如 果 FE> 书 Cr 一 1，x 一 门 ， 则 根据 
数理 统计 方差 分 析 原 理 可 以 认定 类 与 类 之 间 的 差异 是 显著 的 ， 说 明 在 这 样 的 显著 
性 水 平 下 分 类 是 相对 合理 的 。 如 果 满 足 F 盖 书 (r 一 1， 7 一 站 的 分 类 太 多 ， 还 可 以 
提高 过 关 的 门槛 ， 即 给 定 更 为 严格 的 显著 性 水 平 (例如 a 二 0.01 )， 这 样 可 以 减少 
分 类 个 数 。 如 果 还 是 超过 一 个 ， 并 确实 只 认可 一 种 分 类 ， 则 需要 从 物理 上 考虑 ， 
由 具有 丰富 经 验 的 专家 从 物理 上 分 析 不 同 4 值 的 分 类 结果 ， 再 确定 最 佳 分 类 ， 是 
一 种 解决 这 类 问题 的 有 效 办 法 。 


下 面 举例 说 明 模糊 聚 类 分 析 的 环境 应 用 。 

例 5.4 选取 长 江上 游 望 江 楼 1993 一 2000 年 1 月 份 水 环境 监测 指标 ( 见 思考 
题 4 第 2 题 ) 进 行 模糊 聚 类 分 析 。1993 年 (uw)，1994 年 (us)，1995 年 (us)，1996 
年 (1u)，1997 年 (us)，1998 年 (us)，1999 年 (u;)，2000 年 (us)， 即 论 域 为 U= 
{us， us，t4，us，uUs， uy，uUs)。 每 年 度 的 检测 指标 选取 6 个 主要 污染 物 指 
标 作为 指标 因子 。 

解 (1) 将 望 江 楼 1993 一 2000 年 1 月份 水 环境 监测 指标 进行 标准 差 变 换 : 


Zh (i=1, 2, 





wey NE R= 2 “0 nm) 


其 中 ， 7 
ni n ii 


经 过 变换 后 ,每 个 变量 的 均值 为 0， 标准 差 为 1， 并 可 以 消除 量 纲 的 影响 ， 
但 不 一 定 在 [0，1] 区 间 上 。 
(2) 为 了 将 变量 变换 到 [0，1] 区 间 上 ， 故 再 进行 极 差 变换 : 
一 min {za} 
ER (k=1, 2, **, n) 
式 中 max{z}，min {zh} 分别 表示 各 同一 污染 因子 中 的 最 大 值 及 最 小 值 。 经 过 
极 差 变 换 后 变量 在 [0，1] 区 间 上 ， 且 消除 了 量 纲 的 影响 。 极 差 变换 后 的 数据 ， 
见 表 5. 3。 
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表 5.3 标准 化 的 数据 
指 标 
年 份 
DO ”高 锰 酸 盐 指数 。 BODs NH-N 挥发 酚 饥 
1993 1.0000 0.0000 0.0000 0.0000 0.138 9 0.0000 
1994 0.0000 0.694 4 1.0000 1.0000 0.0000 0.0000 


1995 0. 259 7 0.902 8 0.615 4 0.306 4 0.000 0 0.000 0 
1996 0.0649 0.9722 0.6346 0.677 4 1.0000 1.0000 
1997 0.1948 0.1389 0.209 1 0.901 2 0.277 8 0.000 0 
1998 0.0779 0.958 3 0.2933 0. 185 1 0.527 8 0.000 0 
1999 0.1039 1.0000 0.8365 0.1887 0.3333 0.0000 
2000 0. 168 8 0.458 3 0.449 5 0.516 6 0.388 9 0.0000 





(3) 建立 模糊 相似 矩阵 

建立 模糊 相似 矩阵 又 称 为 标定 ， 即 标 出 衡量 分 类 对 象 间 相 似 程 度 的 统计 
量 rj Gi, 7 一 1，2，…，7mD。 

采用 夹 角 余弦 法 计算 : 








式 中 ,rj 为 区 域 i 与 区 域 j 的 相似 系数 ， Za 也 为 两 个 区 域 的 同类 指标 。 

相似 系数 rj 的 取 值 范围 是 LO，1]， 用 来 描述 区 域 相 似 程度 。 如 果 ry 二 0， 两 
个 水 质 站 的 水 污染 物 没有 相似 之 处 ;如 果 x 三 1， 则 两 个 水 质 站 的 水 污染 物 完 全 
相似 。 求 出 训 后 ， 以 wi 为 矩阵 元 素 ， 即 得 模糊 相似 关系 矩阵 R， 该 矩阵 实际 上 是 
一 个 对 称 和 矩阵 。 
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1.0000 0.0000 0.2210 0.1034 0.2323 0.1302 0.1092 0.2382 
0.0000 1.0000 0.8444 0.6461 0.7697 0.6311 0.8009 0.8797 
0.2210 0.8444 1.0000 0.656 8 0.5014 0.838 3 0.9470 0.8274 
_|o.1034 0.6461 0.6568 1.0000 0.6016 0.7909 0.740 8 0.8185 
R 一 |o.2323 0.7697 0.5014 0.6016 1.0000 0.4569 0.4400 0.8286 
0.1302 0.6311 0.838 3 0.7909 0.4569 1.0000 0.9074 0.830 3 
0.1092 0.8009 0.9470 0.7408 0.4400 0.9074 1.0000 0.8544 
0.238 2 0.8797 0.8274 0.8185 0.8286 0.8303 0.8544 1.0000 
(4) 模糊 等 价 和 矩阵 聚 类 

经 过 计算 ,k=4 时 ，R* 二 R'， 故 Re 就 是 所 求 的 模糊 等 价 矩 阵 。 
1.0000 0.238 2 0.238 2 0.2382 0.238 2 0.238 2 0.238 2 0.238 2 
0.238 2 1.0000 0.8544 0.8185 0.8286 0.8544 0.8544 0.8797 
0.238 2 0.8544 1.0000 0.8185 0.8286 0.9074 0.9470 0.8544 
pe |02382 0.8185 0.8185 1.0000 0.8185 0.8185 0.8185 0.8185 
0.238 2 0.8286 0.8286 0.8185 1.0000 0.8286 0.8286 0.8286 
0.238 2 0.8544 0.9074 0.8185 0.8286 1.0000 0.9074 0.8544 
0.238 2 0.8544 0.9470 0.8185 0.8286 0.9074 1.0000 0.8544 
0.238 2 0.8797 0.8544 0.8185 0.8286 0.8544 0.8544 1.0000 


利用 刁 ， 并 根据 阔 值 ME[0，1] 就 可 以 进行 分 类 。 由 不 同 的 》 值得 到 的 一 系 
列 分 类 结果 ， 可 以 用 动态 聚 类 图 来 表示 (图 5- 3)。 
u us 


us My Us Us uy uy 






图 5-3 动态 聚 类 图 


由 此 可 以 得 出 结论 : 
@ 当 4=0.9470 时 , 分 7 类 : fi), {wz}, {uss wr}, {i}, {us), {us}, 
(us 


图 当 ) 王 0.907 4 时， 分 6 类 : (wa), {uz}, {uss wsr tw), (wu), {us}, 





{us}。 

当 24 二 0.879 7 时 , 分 5 类 : 
当 4==0. 854 4 时 , 分 4 类 : 
当 4 二 0. 828 6 时 , 分 3 类 ; 


当 4=0. 818 5 时 , 分 2 类 : 
当 4==0.238 2 时 , 分 1 类 : 
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{lu}, {us, us}, 
(ui), (us, Ua, Uss Ur, 


tu}, 1 
{wu}, ( 


Uz» Uss Us» Us 


Uz» Ua, Urs Us» 


(iu Us Us Us Us, Ue» 


{us, Us» 
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Urs Us}, {wu} 


Uss Urs Us}o 


urs Us}o 


例 5.5 ”试用 模糊 聚 类 法 分 析 评 价 大 气 环境 质量 。 共 选取 了 5 个 评价 指标 ， 


分 别 是 CO、SO; 、 
良 、 中 、 
欢 等 ，2004)。 


NOx、PMie 和 TSP， 构造 了 4 个 评价 等 级 标准 ， 分 别 为 : 优 、 
差 。 各 级 标准 的 取 值 范围 如 表 5.4 所 示 。 实 测 数据 ， 如 表 5. 5 所 示 ( 和 孙 

















表 5.4 道路 大 气 环境 质量 评价 标准 范围 ”单位 : mg/nm 
评价 指标 
等 级 CO SO NO。 FM TSP 
优 (Cw) 3.0 0.05 0.05 0.05 0.12 
良 (us) 3.5 0.10 0.08 0.10 0.20 
中 Cu) 4.0 0.15 0.10 0.15 0.30 
差 (uw) 6.0 0.25 0.15 0,25 0, 50 
表 5.5 道路 大 气 环境 质量 实测 值 ”单位 mg/mm 
评价 指标 
道路 名 称 CO SO， NO。 FM TSP 
公路 alus) 2.6 0.06 0.05 0.05 0.10 
公路 bu) 4.7 0.16 0.09 0.08 0.31 
公路 cCw) 法 尝 0.14 0.09 0.09 0.21 
公路 dm) 3.0 0.13 0.07 0.08 0.18 








将 道路 大 气 环境 质量 评价 标准 与 道路 大 气 环境 质量 实测 值 作为 整体 进行 模糊 
聚 类 分 析 ， 通 过 标准 差 变换 和 极 差 变 换 后 ,数据 如 下 表 5. 6 所 示 。 
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表 5.6 标准 化 数据 
等 级 /道路 名 称 而 Er 区 5 FN Tp 
优 0.1176 0.0000 0.0000 0.0000 0.0500 
良 0.2647 0.2500 0.3000 0.2500 0.2500 
中 0.4118 0.5000 0.5000 0.5000 0.5000 
差 1.0000 1.0000 1.0000 1.0000 1.0000 
公路 a 0.0000 0.0500 0.0000 0.0000 0.0000 
公路 0.6176 0.5500 0.4000 0,1500 0.525 0 
公路 0.323 5 0.4500 0.400 0 0.2000 0.2750 
公路 d 0.1176 0.4000 0.2000 0.1500 0.2000 


根据 标准 化 后 的 数据 ， 建 立 模糊 相似 矩阵 R: 


1.0000 0.5791 0.5313 0.5865 0.0000 0.7240 0.5309 0.3548 
0.5791 1.0000 0.9944 0.9973 0.4241 0.9360 0.9707 0.899 1 
0.531 3 0.994 4 1.0000 0.9973 0.4623 0.9231 0.963 8 0.920 7 
|0.5865 0.997 3 0.9973 1.0000 0.447 2 0.9385 0.9657 0.908 3 
0.0000 0.4241 0.4623 0.4472 1.0000 0.5146 0.5895 0.7609 
0.7240 0.9360 0.9231 0.9385 0.5146 1.0000 0.958 1 0.890 3 
0.5309 0.9707 0.9638 0.9657 0.5895 0.9581 1.0000 0.9545 
0.3548 0.899 1 0.9207 0.908 3 0.7609 0.8903 0.9545 1.0000 


本 例 同样 是 采用 在 模糊 等 价 关 系 基础 上 的 聚 类 方法 。 经 过 计算 ，k 一 4 时 ， 
及 一 Ri ， 故 R 就 是 所 求 的 模糊 等 价 矩 阵 。 


1.0000 0.7240 0.7240 0.7240 0.7240 0.7240 0.7240 0.7240 
0.7240 1.0000 0.9973 0.9973 0.7609 0.9581 0.9707 0.9545 
0.7240 0.9973 1.0000 0.9973 0.7609 0.958 1 0.9707 0.9545 

_ |10.7240 0.9973 0. 9973 1.0000 0.7609 0.958 1 0.9707 0.9545 
EE 0.7240 0.7609 0.7609 0.7609 1.0000 0.7609 0.7609 0.7609 
0.7240 0.958 1 0.958 1 0.958 1 0.7609 1.0000 0.958 1 0.9545 
0.7240 0.9707 0.9707 0.9707 0.7609 0.958 1 1.0000 0.9545 
0.7240 0.9545 0.9545 0.9545 0.7609 0.9545 0.9545 1.0000 
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利用 瑟 ， 并 根据 阔 值 MXE[0，]] 就 可 以 进行 分 类 。》 值 根据 所 生成 的 模糊 等 
价 矩 阵 中 的 道路 大 气 环境 质量 标准 所 在 列 来 选取 。 由 不 同 的 》 值得 到 的 一 系列 分 








类 结果 ， 可 以 用 动态 聚 类 图 来 表示 (图 5- 4)。 
0.9973 
0.9707 - 
0.958 1 - 
0.9545 
0.7609 
0.7240 
图 5-4 动态 聚 类 图 
由 此 可 以 得 出 结论 : 
@ 当 4=0.9973 时 , 分 7 类 : {i}, {uz}, {fuss tw), us), {ue}, {ur}, 
{us} 。 
@ 当 4=0.9707 时 , 分 5 类 : {ia}, (ws we ts tw)， (ts), {us}, {us} 
图 当 4=0.958 1 时 , 分 4 类 ; {wu), {uss was was Ue, Ur}, {us}, (us}。 
@ 当 4=0.954 5 时 , 分 3 类 ; {wu)， {us Us, tus tes Wr, ts)， {us}。 
@ 当 ) 一 0.7609 时 ,分 2 类 : {ta)， {uz ws, tas Uss uss Wr, ua} 
@ 当 4=0.724 0 时, 分 1 类 : {us ws uss wh Us Us Wr, Us}。 
【思考 题 5] 


1， 设 论 域 X= (zi，z2，Zzs}，xzt， zz，zy 属于 “严重 污染 程度 ”分 别 为 0.3, 0.7, 0. 9， 
试 给 出 “严重 污染 程度 ”的 模糊 集 表示 方法 。 


2. 设 
1.0 0.5 0.9 
-es 1.0 | 
0.9 0.5 1.0 
证 明 R 是 模糊 等 价 矩 阵 。 
3. 设 


1.0000 0.7000 0.9000 0.9000 
R= 0.7000 1.0000 0.7000 0.7000 
0.9000 0.7000 1.0000 0.9000 


0.9000 0.7000 0.9000 1.0000 


证 明 KR* 是 模糊 等 价 甜 阵 。 
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4。 试 述 模糊 聚 类 分 析 的 详细 步骤 。 

5， 试 用 传递 闭 包 法 、 直 接 聚 类 法 对 卸 阵 

0.8 1.0 0.2 0.8 0.5 03 

o4 03 0.7 0.6 03| 
1.0 0.7 1.0 0.6 0.5 

0.7 1.0 0.5 0.8 0.6 

1.0 0.5 1.0 0.2 0.7 

0.6 0.8 0.2 1.0 0.8 

0.5 0.6 0.7 0.8 1.0 


bE 

1 
和 
wammomo 
全 PP 
ww 


作 珍 类 分 析 ， 并 作 下 检验 。 

6， 试 选 一 种 方法 对 表 4.7 所 示 的 九 个 农业 区 作 珍 类 分 析 ， 并 作 下 检 验 。 

7. 表 5.7 为 某 市 区 20 个 采样 点 的 地 下 水 水 质 分 析 数 据 ， 试 选 一 种 方法 对 该 市 区 采样 点 的 
地 下 水 水 质 进 行 聚 类 分 析 ， 并 作 下 检验 。 





表 5.7 市 区 浅 层 地 下 水 水 质 分 析 样本 数据 表 
代号 采样 地 点 pH 值 。 Mg Cl SOi Ci 二 SO HCO 侵蚀 性 CO 

1 恩 华 药 厂 7.30 37.16 123.56 138.06 261.62 259.25 0.00 
2 军 分 区 7.50 57.39 196.37 609.99 806.36 286.06 2.64 
3 。 兴隆 大 厦 7.90 40.02 73.85 486.72 560.57 317.85 0.00 
4 ” 户 部 商都 6.90 34.00 115.58 252.72 368.30 496.34 0.00 
5 九 隆 总 部 7.60 33.17 82.07 55.36 137.43 224.37 0a00 
6 博爱 大 厦 7.50 104.38 503.63 19.14 522.77 245.12 0.00 
7 徐州 饭店 8.15 25.06 111.34 108.05 219.39 88.09 5.99 
8 电力 宾馆 7.65 74.32 287.78 763.01 1050.79 442.09 0.00 
9 夹 河 前 街 7.50 57.34 141.46 176.58 318.04 358,97 0.00 
10 开明 市 场 7.60 65.23 161.63 253.34 414.79 422.99 0.00 
11 空 后 学 院 8.40 16.43 83.42 226.38 309.80 442.58 0.00 
12 灯泡 厂 7.20 66.70 151.99 219.79 371.78 784.84 0.00 
13 府 原 小 区 7.70 69.25 102.53 212.40 314.93 541.80 0.00 
14 ”天 润 花园 7.50 82.90 133.50 411.60 545.10 630.20 0.00 
15 ”基督 教堂 7.60 62.54 225.98 393.69 619.67 318.71 7.14 
16 赢 都 花园 7.55 11.95 91.03 293.46 384.49 287.79 2.43 
17 交通 局 7.30 35.56 41.46 64.61 106.07 443.85 0.00 
18 户 景 花园 7.30 69.78 65.86 131.06 196.92 646.57 0.00 
19 少年 起 7.60 35.44 85.05 96.31 181.36 239.32 0.00 
20 体育 馆 7.30 47.40 129.44 142.41 271.85 191.11 _0.00 
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第 6 章 环境 判别 分 析 


聚 类 分 析 是 寻找 客观 分 类 的 分 析 方法 ， 而 判别 分 析 是 在 已 知 分 类 情况 下 寻找 
客观 分 析 的 依据 。 在 环境 科学 中 ， 我 们 经 常 遇 到 环境 状态 分 类 、 等 级 评比 等 问 
题 。 如 何 根据 已 有 分 类 指标 或 是 在 以 往 数 据 进行 有 效 分 类 的 基础 上 ， 依 据 研究 问 
题 的 实际 环境 情况 划分 该 问题 所 属 类 型 ， 是 很 重要 和 很 需要 做 的 事情 。 处 理 这 类 
问题 的 有 效 工具 之 一 即 是 判别 分 析 。 

判别 分 析 已 成 为 应 用 性 很 强 的 一 种 多 元 统计 方法 。 判 别 分 析 按 判别 的 组 数 来 
分 ， 有 两 组 判别 分 析 和 多 组 判别 分 析 ; 按 区 分 不 同 总 体 所 用 的 数学 模型 来 分 ， 有 
线性 判别 和 非 线性 判别 ; 按 判 别 对 所 处 理 的 变量 方法 不 同 又 有 逐步 判别 、 序 贯 判 
别 等 。 判 别 分 析 从 不 同 角度 提出 问题 ， 有 不 同 的 判别 准则 ， 如 费 歌 尔 (Fisher) 准 
则 和 贝 叶 斯 (Bayes) 准 则 。 本 章 将 结合 环境 应 用 实例 ， 介 绍 常用 的 几 种 判别 分 析 
方法 。 

本 章 的 主要 内 容 是 : 
距离 判别 分 析 ; 

@@。 Fisher 判别 分 析 ; 
@ ”Bayes 判别 分 析 ; 
@@ 环境 应 用 。 


判别 分 析 用 统计 模型 的 语言 来 描述 就 是 : 设 有 个 总 体 Gl，G:，…，Gi， 
希望 建立 一 个 准则 ， 对 给 定 的 任意 一 个 样本 zx， 依 据 这 个 准则 就 能 判断 它 是 来 自 
哪个 总 体 。 当 然 ， 我 们 应 当 要 求 这 种 准则 在 某 种 意义 下 是 最 优先 的 。 例 如 ， 错 判 
概率 最 小 或 错 判 损失 最 小 等 。 


6.1.1 两 总 体 情况 


设 有 两 总 体 C, 和 G:，x 是 一 个 p 维 样本 ， 若 能 定义 样本 x 到 总 体 Gl 和 G 
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的 距离 4 (x,，G1) 和 d(x，G。)， 则 可 用 如 下 的 规则 进行 判别 : 若 样 本 x 到 总 
体 G 的 距离 小 于 到 总 体 G 的 距离 ， 则 认为 样本 x 属于 总 体 G1; 反之 ， 则 认为 
样本 x 属于 总 体 Gs; 若 样本 x 到 总 体 G, 和 Gs 的 距离 相等 ， 则 让 它 待 判 。 这 个 
准则 的 数学 模型 可 描述 为 : 
xEG! d(x, Gi)<d(x, G:) 
jc d(x, Gi)>d(x, G:) (6.1) 
待 判 ”d(x, G1)=d(x, G:) 
当 总 体 G, 和 Gs 为 正 态 总 体 且 协 方差 矩阵 相等 时 ， 距 离 选用 马 氏 距离 ， 即 : 
d(x, G1)=(x—p) D7 (x—p) (6. 2) 
d(x, G:)=(x—p2) D7 (x—pe) (6. 3) 
这 里 ,jn，Jz， 厂 ， 攻 分 别 为 总 体 G! 和 G 的 均值 、 协 方差 矩阵 。 马 如! 分 
别 为 马 ， 马 z 的 逆 矩 阵 。 
概括 上 述 法 则 ， 可 直观 地 描述 为 未 知 所 属 总 体 的 样本 x， 离 哪个 总 体 较 近 ， 
就 判 x 属 于 哪个 总 体 ， 即 算出 样本 x 到 总 体 G; 和 G; 的 距离 差 ， 若 差 值 为 正 ， 则 
样本 x 属于 G,， 否则 ,x 属于 G2。 
假设 协 方差 矩阵 相同 ， 即 瑟 ; 二 :二 加 ， 则 可 证 明 : 
d(x, G)—d(x, G2:)=—2[x— (pm +p2)/2] 3 (p—p) 


令 p= +p)/2 
则 We)=(x—p) Dp:) (6. 4) 
于 是 判别 规则 (6. 1) 可 以 表示 为 : 
XEG! W(x)>0 
(ea W(x)<0 (6.5) 
待 判 W(x)=0 


其 中 ， 称 W(x) 为 判别 函数 ， 由 于 它 是 x 的 线性 函数 ， 又 称 线性 判别 函数 。 线 性 
判别 的 应 用 最 为 广泛 ， 本 章 的 大 部 分 内 容 是 讨论 线性 判别 函数 及 其 应 用 。 

当 jn，ha， 玫 未知 时 ， 可 用 样本 来 估计 。 设 二， 二，…，x 是 从 Gi 中 取出 
的 样本 。y ， 郊 ，…， 因 是 从 Gz 中 取出 的 样本 ， 则 证 ， 属 ， 互 的 估计 为 ， 


my 





Ti 2 
严 一 产 之 六 一 区 
2 1 


es 1 
人 (Ai+A:) 
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其 中 , = bE ;hs 一 0 (yj— 
如 果 协 方差 类 阵 不 同 ， 即 马 与 丈 不 等 ， 则 判别 函数 W(x) 为 : 
W(x)=d(x, G1)—d(x, G2) 
=(x—p) D7 (x—p)—(x—pe) Di (x—pz) 
当 J，pz， 另 ， 忆 未 知 时 ，j; 的 估计 如 同方 差 相 同时 的 情形 ,而 


也 = 一 4A。 (m=1, 2) 
na—1 





式 中 ， As= 2 = Tm 
fi 


当 /一 1 时 ， 两 总 体 呈 图 6- 1 的 状态 这 时 W(x) 的 符号 取决 于 zx>y 还 是 
ZK， 从 图 6- 1 可 以 得 到 如 下 直观 概念 ( 何 晓 群 ，2003): 

(1) 这 种 判别 是 符合 习惯 的 。 

(2) 用 这 种 判别 方法 是 会 发 生 误 判 的 ， 如 工 来 自 总 体 G,， 但 却 在 的 右边 ， 
这 时 我 们 却 判断 它 来 自 总 体 C: ， 误 判 的 概率 为 图 中 阴影 部 分 的 面积 (可 以 直观 地 
理解 成 是 Gt 和 G* 的 交集 )， 倘 车 不 以 py 为 贱 值 点 ,例如 以 其 他 一 点 来 分 界 
(图 6-2)， 这 时 将 总 体 Ci 误 判 为 总 体 G* 的 概率 是 减少 了 ， 但 将 总 体 G 误 判 为 
Gi 的 概率 却 增 大 了 。 可 见 ， 阔 值 点 的 选择 是 极为 重要 的 。 


J, , | 
Hr hk ha mT 大 As 


图 6-1 图 6-2 


(3) 如 果 两 个 总 体 靠 得 很 近 ， 则 无 论 用 何 种 办 法 ， 误 判 的 概率 都 很 大 ， 这 时 
勉强 用 判别 分 析 意义 是 不 大 的 。 因 此 ， 只 有 当 两 个 总 体 的 均值 有 显著 性 差异 时 ， 
作 判 别 分 析 才 有 意义 。 

(4) 落 在 及 附近 的 样本 按 上 述 判别 规则 昌 可 进行 判 。 G， G, 
断 ， 但 误 判 可 能 性 较 大 ， 有 时 划 定 一 个 待 判 区 域 ， 例 
如 在 此 例 中 可 定义 < 和 qd, 使 得 c<d (图 6-3)， 这 时 
判别 规则 改 为 ， es 
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IEG (zc) 
zEG (zx>d) 
待 判 (c<zr<d) 

综 上 所 述 ， 距 离 判 别 分 析 的 步骤 如 下 : 

0) 估计 总 体 G! 和 G; 的 均值 、 协 方差 矩阵 ; 

(2) 计 算 判 别 函数 W(x); 

(3) 把 待 判 样本 代入 W(x) 进 行 判断 。 

xEG (W(x)>0) 

XEG: (W(x)=0) 

待 判 (W(x)=0) 

例 6.1 根据 植物 的 症状 与 受害 程度 来 确定 污染 类 型 。 假 设 根据 叶 色 指数 z 
与 植株 生长 指数 x 来 区 分 植物 遭受 SO, 、HCI 等 大 气 污染 物 的 影响 ( 陈 玉 成 等 ， 
1998)。 有 关 样 本 见 表 6. 1。 试 根据 已 知 样本 建立 判别 函数 ， 并 判定 另外 3 个 待 判 
样本 属于 哪 类 。 














表 6.1 两 种 大 气 污染 物 下 的 植物 反应 

组 别 序号 叶 色 指数 盖 植株 生长 指数 x 

1 9.6 19.6 

第 一 组 2 9.3 19.9 

唱 受 SDO; 3 8.7 18.6 

污染 4 8.8 18.9 

站 8.5 19.6 

1 10.2 30.3 

第 -组 2 11.3 28.7 

各 日 Gl 3 9.8 25.6 

4 LS 27.6 

污染 5 8.5 29.0 

6 9.6 30.0 

1 9.2 19.0 

待 判 样本 2 8.6 19.6 

3 11.2 30.3 





解 将 第 一 组 记 为 G,， 第 二 组 记 为 Ge 。 经 过 计算 ， 各 类 样本 的 指标 均值 为 ; 


ee 
ha = Dx =x= (8.9800 19.320 0) 
1 
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jn = Dy 一 了 一 (9.433 3 28.533 3) 
;1 


k= (9.2067 23.926 7) 
总 体 协 方差 矩阵 和 它 的 逆 矩 阵 为 : 
2 1.2135 0.3317 
四 [ee Lh fd 4 


| 0.867 8 


0. 160 1 0.585 7 
Biju —jn) = (1.0817 一 5.324 0) 
从 而 判别 函数 : 
W(x)= (x—p) D7 uj) 


=1.0817 (zi 一 9.206 7) 一 5.324 0 (za—23.926 7) 
将 3 个 待 判 的 样本 数据 分 别 代 入 到 上 面 的 判别 函数 中 ， 可 以 分 别 求 得 函数 值 为 : 
Wi=26. 222 3, Ws=22. 378 9, Ws=—31.775 3 
Wi 二 0，W: 二 0，Ws 二 0， 根据 判别 函数 的 定义 ， 可 以 判定 样本 1 属于 Gi， 


样本 2 属于 G1， 样本 3 属于 G;。 


6.1.2 多 总 体 情况 


对 应 于 两 个 总 体 时 的 情形 ， 在 分 析 多 个 总 体 的 情况 时 ， 我 们 也 从 协 方差 矩阵 


相同 和 不 相同 两 个 方面 来 考虑 。 
6.1.2.1 协 方差 矩阵 相同 


设 有 上 个 总 体 G1，G:，…，G:， 它 们 的 均值 分 别 为 p，ps，… 


差 矩阵 均 为 互 。 类 似 于 两 总 体 的 讨论 ， 判 别 函数 为 : 
Ws (= (x 3 ) sp, i) Ci, j=1, 2 
相应 的 判别 规则 为 : 











Es (Ws (x)>0, Vi#) 
待 判 ( 某 个 Ws (x)=0) 


当 丰 ， 户 ，…， 且 2， 五 未 知 时 ， 设 从 Gr 中 抽取 的 样本 为 xi ， 


xi (m 二 1，2，…，k)， 则 它们 的 估计 为 : 
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式 中 ， 
n=7h 十 nz 十 十 0m 


A = Dx —X Cx — x ) 
名 


6.1.2.2 协 方 差 矩 阵 不 相同 


这 时 判别 函数 为 
Wi(2)=(x—p;) D7 (x—p)—(x—p) D7 (x—p) 
相应 的 判别 规则 为 : 


[xEG: (Wi (x)>0, Viz 
| 待 判 ( 某 个 Wi (x)=0) 
当 丰 ， 诺 ，…， Jj， 马 ，…， 马 未 知 时 ，jpe; 的 估计 如 同方 差 相同 时 的 情形 ， 而 
又 = (m=1, 2, *, k) 





式 中 ， 有 二 2 CU RE 
各 


同方 差分 析 思 路 相 类 似 ，Fisher 判别 准则 是 寻找 一 种 判别 函数 ， 使 类 间 均 值 
差 的 平方 和 与 类 内 差异 平方 和 之 比 为 极 大 值 。Fisher 判别 也 可 用 于 多 类 判别 , 但 
在 国内 外 ， 多 类 判别 更 多 的 是 采用 贝 叶 斯 (Bayes) 判 别 准则 。 
假设 某 个 环境 问题 是 由 p 个 因子 (变量 ) 组 成 ， 现 在 欲 构造 一 个 似 然 函数 : 
EL(zi ，za ，…，zp) 一 y 一 clZi 十 cazz 十 … 十 cozp 
其 中 ，z; 代表 第 i 个 变量 ，c; 是 变量 的 系数 。 假 设 有 两 类 样本 ， 属 于 第 一 类 的 有 
nm 个， 属于 第 二 类 的 有 ns 个 ， 它 们 的 数据 矩阵 如 下 : 
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zp zx 2 
zz Zz 
XO 一 
* zh 
zz Zz 多 
二 记忆 是 zx 名 E27 


a tk 
Tp XR Tpns 


X 右上 角 的 数码 表明 它们 分 别 属于 第 一 、 第 二 类 样本 。 我 们 规定 某 一 个 定 值 
yo， 当 把 某 样本 的 p 项 指标 代入 上 述 函 数 y 中 ， 如 果 有 y 二 yo。， 我 们 判定 它 属于 
第 一 类 ; 反之 ， 则 属于 第 二 类 。 现 在 假设 我 们 已 经 找到 符合 上 述 判别 要 求 的 判别 
函数 ， 并 把 已 知 分 属于 第 一 、 二 类 样本 的 数据 代入 式 子 中 ， 则 有 : 

y=az tez tter OG=1, 2, 
G=1, 2 


， 7) 


3 和 2 一 ciz 人 名 十 cez 久 十 … 十 crz 罚 ， 72) 


令 : 


对 于 分 类 来 说 ,显然 要 求 ， 
(1) Q= (3T 一 yw) 越 大 越 好 ， 即 类 间 均 值 差 越 大 越 好 ， 
人) 希 记 关内 差异 越 小 起 好 ， 即 加 (yj? 一 77)” 和 阅 CP 一 了) 直 小 起 
好 。 记 ， 
I Dy + 2 oP-) 
根据 上 述 两 点 准则 ， 我 们 应 该 使 


越 大 越 好 。 
对 上 式 两 边 分 取 对 数 有 : 
ln I=ln Q—InF 
显然 当 工 取得 极 大 值 时 ，ln 工 也 取得 极 大 值 。 和 欲求 系数 c(i 二 1，2,，… 
极 值 条 件 ， 应 有 


， 力 ) 满 足 


即 : 


从 而 : 


F= 


这 里 : 
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y= 
一 ct i .十 crz7 
I = ZE +es 2 +t, x 


Do 一 而 ) 二 六 (一 


Il 


2 
a 2 站 ee _w)] 


六 wp) 过 E 
(和 — zt 0 


| 


1 





5 关口 


p 
2 (zp —zE) Peagy 二 二 


Dac 一 ZX )Decay WR 





Da 2) ap —z)+ 
RA 

六 ep 
p p 

2 Poedls 
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le = 2 a -zt ) (zy am)+ by (z8 —zE) (zr —z5) 


一 人 
并 且 有 : 


ee 
2 (xzb —zm) (zd — 77)= Dy ok, 2 2 


ja 
Pap 


2 


当 k==e 时 ,上 式 = be 
对 x 中 也 有 同样 结果 。 











所 以 有 : 
9F 一 2(cilt pa (k= 
a= 名作 十 caliz 十 … 十 cplip) =1, 2, *, p) 
站 一 3) = [Gm te zt om 8)] 
: 
= “mw)| = (六 ce) 
A 
bh=zV 7 (ee=l1, 2, ‘%, p) 
由 此 有 : 
2Q_ ,VY 
gc 2( 辫 cj (RE 一 1，2，…， 力 ) 
12F~ 32Q 
Deck 日 c 


y 
Ta telst et ols) = (Dat) =1, 2，…， p) 


则 有 : 
cla tealit tel =Pes 
因而 有 : 
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区 
cula 十 cat 十 … 十 colz 一 Ba 


| Li 十 cz 十 十 cum 一 Bo 
上 面 方程 组 的 解 是 如 下 方程 组 解 的 8 倍 : 
六 = "(Kk=1l 2, ws PY 


“=1 


由 = ，Q, 下 的 定义 知 上 述 解 (8c;，Bcs，*…，Bes) ,代入 方程 时 正好 可 以 把 有 


提取 并 相互 抵消 。 所 以 方程 组 六 ce 一 不 (人 一 1，2，…， 力 的 解 CCe 王 1，2，…， 思 ) 
可 使 1 达到 最 大 值 。 这 样 ， 作 为 线性 函数 : 


3 一 czl 十 ceza 十 … 十 cprry 
就 是 我 们 所 要 求 的 ， 被 称 为 判别 函数 。 
实际 上 ， 可 以 证 明 , c= ，”(jw 一 je)。 实 际 进行 判别 时 ， 常 令 p==1 或 B= 
tmz 一 2。 因 而 w 的 选择 有 : 








它 是 y”，y 的 加 权 平 均 。yo 也 可 以 用 如 下 方法 表示 ， 
% = Ch = £7 (hn + ps) 
不 失 一 般 性 ,假设 : 
I>%>I 
这 样 当 某 一 待 判 样本 的 数据 代入 判别 函数 时 ,如 果 其 值 y 二 yo, 则 属于 第 一 类 ; 否 
则 属于 第 二 类 。 
Fisher 判别 分 析 的 步 又 如 下 : 


(1) 估计 总 体 G1,G; 的 均值 和 协 方差 矩阵 太美， 避 

(2) 计算 x。 = 去 (a 一 — je) Bp + je): 

(3) 计算 ec 一 五 一 户 ); 

(4) 求 判别 函数 y 一 xc; 

(5) 计 算 判 别 机 数 分 类 值 yT 一 二 Dy 1 
(6) 待 判 样 本 的 判别 。 
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先 计算 待 判 样本 的 判别 函数 值 ， 然 后 对 照 其 与 xp，y”，y 的 大 小 ， 最 后 
确定 待 判 样本 的 归属 。 

例 6.2 试 对 第 1 节 例 6. 1 中 的 问题 用 Fisher 判别 法 判断 。 

解 ”根据 距离 判别 中 的 分 析 数 据 ， 可 以 得 到 : 


w= fi) Dt! (ftii) =—117.426 3 
3 一 cx 一 (fu—fu) BF!x=1;081 7zi 一 5.324 0zz 


be | 
I = Dy =—93.1457 


m £1 
二 二 pa 3 =—141.7070 
2 Et 


即 “ 卫 之 加 之 兽 
将 样本 1，2，3 的 数据 分 别 代入 到 判别 函数 中 ， 得 到 : 
y=—91.204 0, ys=—95,047 4, y=—149. 201 7 
根据 Fisher 判别 准则 ， 可 以 判定 样本 1 属于 G1， 样本 2 属于 G1， 样 本 3 属 
于 G:。 这 个 结果 和 距离 判别 的 结果 是 一 致 的 。 


简单 地 说 ， 判 别 分 析 就 是 根据 掌握 的 历史 上 每 个 类 别 的 若干 样本 的 数据 信 
息 ， 总 结 出 客观 事物 分 类 的 规律 性 ， 建 立 判别 函数 和 判别 准则 ， 然 后 ， 当 遇 到 新 
的 样本 点 时 ， 只 需 根据 总 结 出 来 的 判别 函数 和 判别 准则 ， 就 能 够 判别 该 样本 点 的 
所 属 类 别 。 

除了 上 述 Fisher 判别 准则 外 ， 解 决 判别 问题 的 另 一 条 途径 是 Bayes 判别 分 析 。 

设 G, 和 Gs 是 两 个 总 体 。 在 一 次 发 生 的 事件 中 ， 人 们 先 验 的 给 出 该 事件 属于 
Gi 总 体 的 概率 为 % 王 PC(G) ,属于 G* 总 体 的 概率 为 % 一 P(Gs) ,这 些 概率 称 为 先 
验 概率 。 如 果 事 件 发 生 在 G 总 体 中 或 是 Gs 总 体 中 是 互 不 相 容 的 ， 则 应 该 有 : 

qtq:=1 

同时 ,我 们 把 在 已 知 总 体 G;(i 二 1，2) 条 件 下 观测 到 事件 z 的 概率 称 为 条 件 
概率 ， 记 为 PCz | G;) ,把 已 知事 件 发 生 并 知道 它 来 自 总 体 G;(i 一 1，2) 时 的 概率 
称 为 后 验 概率 ， 记 为 P(G; | z)。 这 样 Bayes 公式 为 : 
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PdG | = CP 1 6) 
SPz | GD)P(G) 
到 :P(x | G;) 
~ qiP(z|G)+qPlr | G:) 
很 自然 ， 人 们 能 设想 ， 对 任意 一 个 事件 zx， 若 P(G, | zx) 宇 P(Gs | zx)， 则 事 
件 z 属 于 总 体 Gi; 反之 ， 若 P(G | z) 一 P(G, | xz), 事件 属于 总 体 Gs。 当 总 体 
为 多 元 正 态 分 布 时 ， 上 式 中 P(z | G;) 可 用 概率 密度 p; (xz) 代替 ， 即 有 : 


P(Gi | x)= 


(i=1, 2) (6.6) 


gipi(r) 
qipi(z) tg pa (x) 
把 上 式 代入 P(G' | x) 三 P(G; | z)，P(G | zx) 二 P(G; | zx) 就 有 : 


着 昌 ( 妨 之 1 事件 划 归 Gi 总 体 ; 


着 时 名 (加 <1 事件 x 划 归 G: 总 体 。 


可 以 证 明 ， 按 照 Bayes 判别 准则 可 使 “ 错 分 的 平均 概率 ” 
gP(2 | 1) 十 ooP(Cl | 2) (6. 8) 
达到 极 小 值 。 这 里 P(2 | 1) 表 示 某 一 事件 属于 总 体 1 却 错 划 为 总 体 2 的 概率 ; 
P (1 | 2) 表 示 某 一 事件 属于 总 体 2 却 错 划 为 总 体 1 的 概率 。 
进一步 地 ， 如 果 记 总 体 是 G1 发 生 的 事件 却 划分 在 总 体 G 的 损失 为 L (2 | 1)， 
而 总 体 是 G* 发 生 的 事件 却 记 在 总 体 Gt 上 的 损失 为 二 〈1 | 2)。 那 么 ,“ 错 分 平均 
损失 ”定义 为 


Qi=1, 2) (6.7) 


qiL(2 | 1)P(2 | D+gL(1 | 2)P(1 | 2) (6.9) 

下 面 ， 我们 把 上 述 Bayes 二 类 判别 准则 推广 到 多 类 判别 。 

考虑 个 总 体 G1，G:，…，Gn， 每 个 总 体 均 是 p 维 ， 且 具有 概率 分 布 密度 
Pi(X)，pa(x)，…，pm(x)。 任 意 取 一 样本 x， 它 属于 G; 的 先 验 概率 为 qi(i 王 1， 
2，…，m)。 根 据 这 个 ,我 们 来 考虑 x 的 归属 问题 。 

样本 x 是 p 维 空间 中 的 一 点 ， 如 果 该 空间 被 对 应 于 G1 ，G:，…，G 的 总 体 
分 割 成 m 个 空间 D1，D:，…，D,,。 当 样本 落 和 人 某 D; 空间 ， 样 本 就 判 属 于 总 体 
Gi。 车 x 属于 G, 却 判定 属于 Gi， 将 它 带 来 的 损失 定义 为 : 


PGID= /pde GAj, j=1, 2, es m) 
2 


因为 上 述 划分 D;，D;， …，D,, 进行 判别 而 造成 的 平均 损失 为 ， 


BDis Dy DO= 2 m2 LGDPG YD (6. 10) 
et 
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可 以 证 明 ， 当 某 种 划分 DP ，D:，…，D。 满足 : 
Di= {x: hx) GAL j=1, 2, ,ms l=1, 2, ,mm))} 
时 ， 能 使 平均 损失 g(D!，D;，…，D, ) 取 得 最 小 值 。 其 中 : 


h(x)= Syd | Dpi(x) (6.11) 
这 就 是 说 ， 对 任意 一 个 样本 ， 计 算出 加 (x) (i 二 1，2，…，m)。 若 在 所 有 的 


(中 ，hu(x) 最 小 ， 则 判断 x 属于 D,， 因 而 x 划 归 于 G, 类 。 在 实际 中 ， 式 
(6. 11) 并 不 容易 计算 出 ， 所 以 往往 假设 LG | 站 二 1。 这 样 : 


h(x) = Se (= > qipi(xr) 一 gzr(xz) =1—gp(x) (6.12) 
| 


h(x) 极 小 ， 则 qrpr(x) 极 大 。 由 此 知 ， 车 x 划 归 Di 的 概率 最 大 ， 则 x 就 应 
该 判 属于 G, 类 。 因 而 ， 就 产生 了 寻找 判别 gup,(x) 最 大 值 的 函数 。 
可 以 证 明 ， 当 总 体 是 p 维 正 态 分 布 时 ,第 i 个 总 体 分 布 密度 为 : 





(ri 
pi(#)=-E——exp[ — 直 (x—p) E(x—p) | (6. 13) 
(2r) 王 


这 里 ， 允 是 总 体 协 方差 矩阵 ， 瑟 "是 它 的 逆 和 矩阵 ，m 是 第 i 个 总 体 均 值 向 量 ，x 
则 为 样本 向 量 。 当 先 验 概率 w 和 ji 均 已 知 时 ， 可 以 建立 判别 函数 ， 

ii 一 cu 十 cuizi 十 caizz 十 … 十 cmzpe 十 ln 9 (i=1, 2, *, m) (6.14) 
这 里 ，c; 称 为 判别 系数 ，co 为 常数 项 。 这样 可 以 得 到 如 下 样本 归属 判断 准则 : 

设 Gi~N(p， 加， 把 样本 观测 值 代入 式 (6. 14) 得 到 值 y;(x)， 它 的 先 验 概率 
为 gs， 错 分 损失 为 L(j | 让 (去 六， 相应 的 Bayes 解 为 : 

D=(x|y; (9 一， 到 站 ax x)) 

因此 ， 当 样本 观测 值 代入 mm 个 线性 回归 判别 函数 y; (Gi=1, 25 "0m), 计 
算 并 进行 比较 ， 得 最 大 y,(x)， 样 本 就 归属 于 G; 类 。 

在 实际 问题 中 ,jw 和 克 往 往 是 未 知 的 ， 多 以 样本 均值 x; 和 样本 协 方差 矩阵 
工作 为 he; 和 对 的 估计 值 ， 并 且 在 计算 中 常常 令 gq 二 qs 二 … 二 gm 二 1， 所 以 判别 函 
数 有 较为 简单 的 形式 : 

VX)=cot errit erit" tepry Gi=1, 2, **, m) 
具体 在 计算 系数 时 ， 可 以 证 明 : 


yi=In gp pp (i=1, 2, **, m) (6.15) 





其 中 , 互 立信 (x 一 x ) (x 一 x )，n 为 所 有 的 各 类 样本 个 数 ，n 


n—m ft et 
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为 第 i 类 的 样本 数 。 
Bayes 判别 分 析 的 步 又 如 下 : 
(1D 估计 总 体 的 均值 和 协 方差 阵 ; 


(2) 求 w 个 判别 函数 yi; 二 In gt Ep Gi=1, 2, *, m); 


(3) 待 判 样本 的 判别 。 
先 计算 待 判 样本 的 m 个 判别 函数 值 ， 然 后 进行 比较 ， 找 到 最 大 的 w， 这 样 
样本 就 归属 于 G; 类 。 


例 6.3 贝 叶 斯 判别 分 析 理论 在 安全 评价 中 的 应 用 

南方 某 矿业 集团 ， 对 其 下 属 企业 的 3 个 矿井 中 的 环境 条 件 因 素 进行 评价 ， 根 
据 南方 煤矿 的 特点 和 以 往 的 经 验 ， 采 取 的 评价 因素 为 : Xi : 巷道 合格 率 /%%f 
Xs: 粉尘 浓度 /mg，m“;， Xs :环境 温度 /人 C :， X4: 风速 /m。s !'; X;: 埠 道 最 
小 行人 宽度 /m; Xs: 巷道 最 小 行人 高 度 /m， 共 6 项 综合 指标 进行 评判 ， 其 原始 
数据 (采用 评分 法 ) 和 指标 体系 ， 安 全 评价 等 级 见 表 6. 2 和 表 6. 3( 雷 诡 等 ，2004)。 
试用 上 述 贝 叶 斯 判别 原理 ， 建 立 安全 评价 等 级 函数 。 








表 6.2 安全 评价 等 级 表 
指标 安全 评价 等 级 
安全 (5) 。 较 安 全 (4) 一般 安全 (3) 较 不 安全 (2) 不 安全 (1) 
埠 道 合格 率 /中 >95 90~95 85 一 90 80~85 一 80 
粉尘 浓度 /Cmg * m 3) < 一 4 4~6 6~8 8~10 >10 
环境 温度 人民 18 一 22 22 一 24 24 一 26 26 一 28 >28 
风速 /(m*s") 6~3.5 i2025 0 R520 ,590 <1.0 


巷道 最 小 行人 宽度 /m 二 1.2 1.1~12 10~L1 0.8~1.0 <0.8 
埠 道 最 小 行人 高 度 /m 二 1.8 1.6~1.8 14~16 1.2~1.4 ee 








表 6.3 原始 数据 
矿井 编号 XX， Xs Xs 六 X; X。 期望值 
1 97. 38 2.12 21:5 2.87 1.40 1.83 5 
2 98. 10 3.65 19.5 3.35 1.31 2.24 5 
EE 96. 45 3.14 18.0 3.50 1.20 1.94 5 
4 95. 30 3.87 22.0 2.56 1,25 2.50 5 
5 94.87 4.03 23.1 2.01 1.17 1.79 4 
6 93.15 5.35 22.7 2.32 1.19 1.72 4 
原 rt 91; 57 4.89 22.2 2.21 1. 13 1.68 4 
8 90. 78 5.87 23.8 2.48 1.10 1.60 4 
始 9 87.69 6.17 25.9 1.98 1.05 1.47 3 
10 89. 34 7.32 24. 3 1.55 1.07 1.52 3 
样 1 85. 10 6.87 25.2 1.63 1.09 1.59 3 
12 86. 54 7.91 24.0 1.75 1.00 1.41 3 
本 13 84. 68 8.07 26.1 1.50 0.86 1.39 2 
14 84. 10 9.13 27.9 1.48 0.91 1.28 人 
15 82.34 8.63 27.4 1.35 0.97 1.35 2 
16 80. 25 9. 87 26.5 1.14 0.81 1.20 2 
17 75.68 10.05 30.7 0.56 0.79 1.89 1 
18 78.98 。 12.30 28.9 0.87 0.45 0.78 1 
19 73. 56 11. 28 29.6 0.96 0.58 0.98 1 
20 70.14 10.87 28.5 0.48 0.74 1.17 1 
解 ”根据 表 中 的 数据 ， 得 到 : 
b=(96.8075 3.1950 20.2500 3.0700 1.2900 2.1275) 
应 一 (92.5925 5.0350 22.9500 2.2550 1.1475 1.697 5) 
属 =(87.1675 7.0675 24.8500 1.7275 1.0525 1.4975) 
太一 (82.8425 8.9250 26.9750 1.3675 0.8875 1.3050) 
hs=(74.5900 11.1250 29.4250 0.7175 0.6400 1.205 0) 
5.1429 一 0.2132 0.0066 0.1467 一 0.0376 一 0.037 4 
一 0.2132 0.6430 一 0.2012 0.023 3 一 0.0474 一 0.0697 
- 0.0066 一 0.2012 1.2457 一 0.1179 0.0381 0.1122 
2 一 | ol467 0.0233—0.1179 00687 —0.0088 一 0.0288 
一 0.0376 一 0.0474 0.0381 一 0.0088 0.0079 0.0127 
一 0.0374 一 0.0697 0.1122 一 0.0288 0.0127 0.0689 


0.2379 0.2675 一 0.0700 一 0.428 7 

0.2675 3.2278 一 0.0498 1.0348 

-1 _ |—0.0700 一 0.049 8 1.0824 1.311 1 
|=o.4287 1.0348 1.3111 21.1819 
2.951 5 22.5338 一 3.2848 13.356 9 

一 0.2091 一 0.228 8 一 0.6976 5.0551 


jn'D 1 一 (24.517 1 66.958 4 13.2904 81.363 3 
jt’ B71 = (23.8363 67.6796 16.1156 67.2740 
jy’ B= (22.9439 70.0536 18.2104 60,7408 
ju'D = (21.9707 70.7400 20.9248 56.5007 
应" 号 二 一 (19.9934 69.2849 24,0749 47.947 9 
1 


Emip = 2 012.5， Pi’ Bp = 1 918.4, 





Bp Bp = 1 817.8, Bp’ Bps = 1 670.6 
利用 上 述 原理 ， 得 到 下 列 评价 函数 : 
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2.9515 
22.5338 
一 3.2848 
13. 356 9 
357.766 5 
一 30.5919 
728. 650 0 
700.089 5 
688.721 1 
652. 881 1 


575. 880 3 


Be” py 


ys(X)=In (二) 一 2 012.5 十 24.517Xi 十 66.958X 十 
13. 29X: 十 81. 63X, 十 728. 65Xs 一 10. 029Xe 


(CN 一 ln 舍 ) 一 1 918.4 十 23. 836X 十 67. 68X: 十 
16. 116Xs 十 67. 274X4 十 700. 09Xs 一 21. 12Xs 


1 


ys(X)=In () 一 1 869. 1 十 22. 944Xi 十 70.054Xs 十 
18. 21Xs++60. 741X, 十 688. 72Xs 一 26. 144Xs 


yaX)=In (3) 一 1 817. 8 十 21. 971X, 十 70. 74Xs 十 
20. 925X3 十 56. 501X, +652. 88Xs 一 28. 354Xs 


OO 一 In (二 ) 一 1 670.6 十 19.993Xi 十 69. 285X: 十 
24. 075X3 十 47. 948X +575. 88Xs 一 26. 859Xs 

用 该 函数 对 待 测 的 3 个 矿井 进行 评价 ， 其 结果 见 表 6. 4。 

根据 待 判 样本 中 的 数据 ， 分 别 代入 到 上 面 建立 的 五 个 判别 函数 中 ， 每 个 样本 


一 0 2091 
一 0.228 8 
一 0.6976 
5.055 1 

一 30. 591 9 
23.039 6 


一 10.029 3) 
一 21.119 8) 
一 26.144 0) 
一 28.3541) 
一 26.859 0) 
二 3 


(5 类) 


(4 类) 


(3 类 ) 


(2 类) 


(1 类 ) 
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可 以 得 到 五 个 值 ， 比 较 这 五 个 值 ， 根 据 最 大 值 ， 判 定 样本 属于 哪 一 类 。 例 如 对 于 
第 一 个 样本 ,分 别 求 得 各 个 判别 函数 的 值 为 : 

3 =1.612 5X 10, yl =1.693 4 X10, y= 1.739 3 X 10, 
3 =1.765 7X10’, y=1.767 9X10’, 

很 明显 ， 几 个 函数 值 中 yt” 最 大 ， 所 以 待 判 样本 1 应 该 划 归 为 第 1 类 。 对 于 
待 判 样本 2 和 3， 可 类 似 进行 判别 ， 得 到 表 6. 4。 





表 6.4 评价 结果 
待 矿井 编号 XI 和 Xs XX Xs Xe 期 望 值 
判 1 75. 58 10.77 28.7 0.88 0.84 1.27 1 
梯 2 85. 54 7,12 25.3 1.67 Lls 1.37 3 
本 ”$3 91.57 5. 39 23.1 2.11 et 1.58 4 


从 表 6.4 的 结果 可 以 看 出 ,编号 为 1 的 矿井 安全 等 级 为 第 1 类 ， 即 为 不 安全 
等 级 ;编号 为 2 的 矿井 安全 等 级 为 第 3 类 ， 即 为 一 般 安 全 等 级 ; 编号 为 3 的 矿井 
安全 等 级 为 第 2 类 ， 即 为 较 不 安全 等 级 。 其 结果 与 实际 符合 。 

例 6.4 根据 植物 的 症状 与 受害 程度 来 确定 污染 类 型 。 假 设 根据 叶 色 指 数 二 
与 植株 生长 指数 zs 来 区 分 植物 遭受 F、SO, 、HCI 等 大 气 污染 物 的 影响 ( 陈 玉 成 
等 ，1998)。 有 关 训 练 样本 见 表 6. 5。 试 根据 贝 叶 斯 (Bayes) 判别 分 析 ， 建 立 判 别 
函数 ， 并 判定 另外 3 个 待 判 样本 属于 哪 一 类 。 





表 6.5 三 种 大 气 污染 物 下 的 植物 反应 
组 别 序号 叶 色 指数 六 植株 生长 指数 zx 
1 4.3 157 
要 5.6 17.8 
3 4.7 16.9 
第 一 组 4 4.8 16.3 
遭受 下 污染 5 5.3 17.2 
6 4.1 16.0 
次 .0 15.8 
8 和 .6 16.2 
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续 表 
组 别 序号 叶 色 指数 植株 生长 指数 x 
1 9.6 19.6 
. . 
a : : - 
和 3 
章 受 30: 污染 4 8.8 18.9 
5 85 19.6 
1 10.2 30.3 
2 11.3 28.7 
第 三 组 3 9.8 25.6 
遭受 HCL 污染 4 7.2 27.6 
5 8.5 29.0 
6 9.6 30.0 
1 9.2 19.0 
待 判 样本 2 4.8 5 了 
3 11.2 30.3 


解 ”根据 表 中 的 数据 ， 得 到 : 
j= (4.6750 16.487 5) 
hz = (8.9800 19.3200) 
hs = (9.433 3 28.533 3) 
> 人 8 0.355 | 
0.3558 1.2519 
利用 Bayes 原理 ， 建 立 评价 函数 为 : 


1 
3 
1 


六 CD 一 ln (3)—157. 550 1 十 4.854 9zi 十 14. 052 gzz 





yi(x)=In (3)—108. 571 8 一 0. 015 3zi 十 13. 174 5zs 





ya(x)=In (二)—326. 390 5 二 1. 842 0zi 十 22. 268 9zs 
根据 待 判 样本 中 的 数据 ， 分 别 代 和 人 到 上 面 建立 的 三 个 判别 函数 中 ， 每 个 样本 
可 以 得 到 三 个 值 ， 比 较 这 三 个 值 根据 最 大 值 判定 样本 属于 哪 一 类 。 用 该 函数 对 
待 测 的 待 判 样本 进行 评价 ， 其 结果 如 表 6. 6。 
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表 6.6 评价 结果 
待 样本 编号 x 到 期 望 值 
判 1 9.2 19.0 2 
样 2 4.8 15.3 
本 3 11.2 30.3 





从 表 6.6 的 结果 可 以 看 出 ,编号 为 1 的 样本 属于 第 二 组 ， 即 遭受 SO; 污染 ; 
编号 为 2 的 样本 属于 第 一 组 ， 即 遭受 下 污染 ; 编号 为 3 的 样本 属于 第 三 组 ， 即 遭 
受 HCI 污染 。 评 价 结果 与 距离 判别 一 致 

例 6.5 仍 选取 第 4 章 第 5 节 例 4.6 中 19 个 监测 站 点 ， 对 长 江 流域 水 质 污染 
进行 判别 分 析 。 现 用 Bayes 方法 对 长 江 流域 望 江 楼 站 污染 较 重 的 4 月 份 水 环境 质 
量 进行 判别 分 析 。 根 据 水 环境 质量 评价 标准 在 每 个 等 级 随机 产生 5 个 样本 ， 见 表 
6.7 一 6.8。 











表 6.7 样本 数据 表 
期 望 值 四 

DO(Cr' ) 高 锈 酸 盐 指数 (zx ) BODs(z) NHs-NCz) 挥发 酚 (xs) 锅 Czr) 
| 9.875 3 0.462 3 1.820 5 0.072 9 0.001 8 0.000 8 
1 8.641 2 0.0370 2.464 2 0.0667 0.001 2 0.000 8 
1 9.8045 1.476 4 0.528 8 0.060 9 0.0019 0.000 9 
1 8.525 7 1.787 3 0.173 7 0.052 9 0.001 6 0.000 0 
7.847 2 0.405 5 0. 596 2 0.0906 0.0005 0.000 2 
6.022 9 3.493 6 3.0000 0.305 8 0.002 0 0.0047 
多 6.699 0 258379.8 3.0000 0.446 2 0.002 0 0.003 1 
次 6.3040 3.344 3 3.0000 0.443 3 0.0020 0.001 1 
2 7.0219 2.759 0 3.000 0 0.441 1 0.0020 0.003 0 
2 7.064 2 2.857 8 3.0000 0.256 6 0.0020 0.001 8 
3 5.193 4 5.364 4 3.302 8 0.770 8 0.0025 0.003 8 
3 5. 378 4 5.720 0 3.853 7 0.796 8 0.003 5 0.004 6 
3 5.8216 5.289 8 3.818 0 0.830 1 0.003 0 0.002 2 
条 5.341 2 5.068 2 起 29 1 0.6546 0.0045 0.0033 
3 5. 370 4 5.405 5 3.546 6 0.722 4 0.004 1 0.003 5 
4 4.5896 9.827 4 5.045 2 1.440 1 0.0059 0.0049 
4 3.5429 7.009 3 5.7515 1.3687 0.0057 0.0010 
4 4.787 8 6.796 6 4.597 4 1.330 7 0.006 4 0.0029 
4 3.1296 9.9533 5.1656 外 2 0.007 6 0.002 3 
4 3.865 8 6.903 8 5.159 6 1.380 2 0.007 6 0.003 6 
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续 表 

期 望 值 指 = 和 
DO(z ) ”高 锰 酸 盐 指 数 (zx:) BOD: (xs) ”NHs-N(zs) 挥发 酚 (zs) 饥 (zxs) 
5 2.209 1 11. 899 1 9.1333 1.8404 0.0515 0.0078 
5 2.794 2 10.2959 8.4115 1.5251 0.0474 0.0065 
5 2.874 4 10.075 0 9.0718 1.9854 0.0991 0.0089 
5 2.4387 12.4916 6.855 9 1.8217 0.0388 0.0098 
5 2.726 6 12.059 8 8.978 3 1.6340 0.0496 0.0097 

表 6.8 2000 年 4 月份 各 站 点 水 环境 监测 指标 实测 值 
指 标 
各 站 点 。 DO( 

xi) 高 锰 酸 盐 指数 (z*) BODi(z) ”NH;-N(zs) 挥发 酚 (zs) 铺 (zo) 
攀枝花 7.80 1.80 1.10 0.08 0.000 0.0000 
望 江 楼 1.40 6.20 24. 90 6. 22 0.018 0.0000 
高 场 8.00 2.40 0.80 0.08 0.000 0.0013 
朱 学 9.42 3.04 0.50 0.12 0.000 0.0015 
寸 滩 9.40 2.70 0.60 0.00 0.001 -0.0014 
张家界 9.80 1.00 0.60 0, 06 0, 000 0.0000 
吉首 7. 60 2.50 5.60 0.22 0.000 0.0000 
芷 江 6.60 1.50 0. 90 0.32 0.000 0.0000 
坝 上 7.60 3. 90 3.00 1.00 0.000 ”0.0000 
津 市 8.00 1.90 0.90 0. 22 0.002 ”0.0000 
石门 9.00 1.30 0. 60 0.22 0.002 0.0000 
益 阳 8. 30 1.70 0.20 0.09 0.000 -0.0000 
湘潭 9.10 2.50 2.00 0.30 0.000 ”0.0000 
株 洲 7.30 3.80 1.60 0. 22 0. 000 0.0000 
了 衡 阳 8.00 3.10 1.50 0.34 0.000 -0.0000 
长 沙 8.10 2.30 0.50 0.17 0.000 -0.0027 
吉安 8.70 2.50 2.70 0.21 0.000 -0.0000 
中 山 10.10 1.70 1.50 0.10 0.000 ”0.0000 
宣 城 9.30 1.50 0. 60 0.00 0.000 0.0000 





解 根据 表 中 的 数据 ， 得 到 样本 均值 : 
b=(8.938 8 0.8337 


hz=(6.6224 3.0584 3.0000 


1.1167 0.0688 0.0014 0.000 5) 


0.3786 0.0020 0.0027) 


js=(5.4210 5.3696 3.6496 0.7549 0.0035 0.0035) 
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=(3.9831 8.0981 5.1439 1.3463 0.0066 0.0029) 
bs=(2.6086 11.3643 8.4902 1.7613 0.0573 0.008 5) 
协 方差 : 
0.3190 一 0.095 4 0.013 7 0.005 9 0.0007 0.000 1 
一 0.095 4 0.9266 一 0.2140 一 0.0080 一 0.0036 0. 000 4 
0.0137 一 0.214 0 0.418 5 0.003 5 0.0024 一 0.0001 
0.0059 一 0.008 0 0.003 5 0.010 7 0.000 5 0.000 0 
0.0007 一 0.0036 0.002 4 0.000 5 0.000 1 0.000 0 
0. 000 1 0.0004 一 0.0001 0.0000 0.0000 0.0000 
利用 Bayes 原理 ， 所 建立 的 评价 函数 为 : 


(x)=In (二 ) 一 141. 695 7 十 30.7z 十 6. 1zs 十 4. 5zs 十 6. 1z4 一 102. 2zs 一 


5 
3 209, 7xe 


局， 
1 


nl 


(x)=In ( 
1 928. 5zxs 


) 一 112.879 十 23.2 zi 十 8.3zxz 十 11.7xs 十 46. 4x, 一 322. 4z5 一 


Go 一 mn (3)—12. 903 9 十 19. 9zi 十 11. 4zz 十 15., 3zs 十 95. 3z4 一 495. 4z; 一 
2 683. 3xs 


yx) =In ( 吉 ) 一 262. 397 9 十 16.5 zi 十 16, 0zs 十 21.9zs 十 176. 5z 一 
811.0zs 一 5 185. 7xs 


ys (x) = ln (3)—418.112 1 十 11.3z 十 21.4zs 十 31.4zs 十 193.0zri 一 


456. 6zs 一 1 976. 9xe 

根据 待 判 样本 中 的 数据 ， 分 别 代 入 到 上 面 建立 的 五 个 判别 函数 中 ， 每 个 样本 
可 以 得 到 五 个 值 ， 比 较 这 五 个 值 ， 根 据 最 大 值 判 定 样本 属于 哪 一 类 。 用 该 函数 对 
待 测 的 19 个 监测 站 点 的 水 质 污染 进行 判别 分 析 ， 其 评价 结果 见 表 6. 9。 











表 6.9 评价 结果 

判别 函数 值 (X10) 
和风 I i 四 说。 期 呈 值 
攀枝花 0.1128 0.0980 0.055 7 一 0.0686 ”一 0.243 2 1 
望 江 楼 0.0862 0.542 9 0.9187 1.4857 1.702 8 5 


高 场 0.117 1 0.1017 0.058 4 一 0.069 0 一 0.240 1 1 
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续 表 
各 站 点 判别 画 数 值 ( x10”) 
I I 山 N ¥ 期 望 值 

朱 沱 0.1629 0.1379 0.0927 一 0.035 9 一 0.2125 1 
才 滩 0. 160 2 0.130 1 0.078 3 一 0.060 9 一 0. 240 3 1 
张家界 0.167 1 0.1310 0.076 8 一 0.063 0 一 0.257 4 
吉 首 0.1322 0.158 2 0.141 8 0.0624 一 0.062 2 2 
芷 江 0.074 7 0.076 5 0.048 2 一 0.055 2 一 0.223 2 2 
坝 上 0.133 7 0.175 7 0.192 4 0.1657 0.0367 3 
津 市 0.119 3 0.1070 0.070 1 一 0.045 0 一 0.219.0 1 
“| 0.145 1 0.1217 0.078 6 一 0.0447 一 0.2300 1 
益 阳 0.123 6 0.0987 0.0517 一 0.079 9 一 0.266 1 人 
湘 漂 0.1625 0.1547 0.1243 0.0225 一 0.1429 1 
株 洲 0.1128 0.115 4 0.0895 一 0.009 1 一 0.163 3 2 
衡 阳 0.1303 0.1302 0.105 4 0.0102 一 0.150 4 1 
长 沙 0.114 3 0.101 1 0.059 5 一 0.066 9 一 0.2360 1 
吉 安 0.152 8 0.149 4 0.118 4 0.015 4 一 0.142 8 1 
中 山 0.1849 0.1561 0.108 4 一 0.020 1 一 0.203 0 1 
宣 城 0.154 4 0.120 8 0.066 9 一 0.073 8 一 0.263 9 1 





【思考 题 6】 


1， 试 述 距离 判别 的 基本 步 又。 

2， 试 述 Fisher 判别 的 基本 步骤 。 

3， 试 述 Bayes 判别 的 基本 步骤 - 

4。 为 取得 评价 所 需 的 监测 数据 ,在 项 目 及 周边 地 区 布设 了 5 个 空气 监测 点 ， 分 别 记 为 
2，3， 4，5 号 点 ， 按 要 求 在 各 点 对 SD* 、NOx、TSP 三 种 因子 进行 监测 ， 得 到 三 种 评价 因子 
的 日 平均 浓度 值 ， 见 表 6. 10。 
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表 6.10 各 监测 点 的 监测 值 表 ”单位 : mg/mm 
测 点 导 日 平均 值 

SO NOx TSP 
1 0.006 0 0.022 0.327 
2 0.0090 0.018 0. 190 
3 0.0105 0.015 0. 253 
4 0.0040 0.025 0.160 
5 0.0030 0.018 0.053 


评价 选用 环境 空气 质量 评价 标准 ， 该 标准 的 浓度 限 值 见 表 6. 11， 该 标准 体系 共 分 三 级 ， 
对 应 三 类 环境 功能 区 。 一 类 区 为 自然 保护 区 、 风 景 名 胜 区 和 其 他 需要 特殊 保护 的 地 区 ; 二 类 
区 为 城镇 规划 中 确定 的 居住 区 、 商 业 交通 居民 混合 区 、 文 化 区 、 一 般 工 业 区 和 农村 地 区 ; 三 
类 区 为 特定 工业 区 。 并 规定 一 类 区 执行 一 级 标准 ， 二 类 区 执行 二 级 标准 三 类 区 执行 三 级 标 
准 ,。 该 项 目 为 房地产 开发 项 目 ， 建 成 后 为 高 级 住宅 区 ， 项目 所 在 地 为 大 城市 的 郊区 。 试 用 距 
离 判别 法 判断 各 监测 点 所 处 环境 功能 区 的 类 型 ， 这 里 每 一 级 标准 取 5 个 样本 ， 并 给 出 判别 
函数 。 








表 6.11 大 气 环境 质量 标准 表 (GB 3095 一 1996) 单位 : mg/nm 
_ -日 平均 浓度 限 值 
ee 一 级 标准 二 级 标准 三 级 标准 
SO 0.05 0.15 0. 25 
NOx 0. 10 0. 10 0. 15 
TSP 信友 0. 30 0. 50 


5 为 了 了 解 某 一 河流 As、Pb 的 污染 状况 ， 分 别 在 甲 、 乙 两 地 监测 ， 采 样 分 析 得 水 中 的 
As、Pb 浓度 与 底 泥 中 的 As、Pb 浓度 。 现 有 两 个 未 知 样本 A，B， 相 应 的 监测 数据 一 并 列 人 表 
6. 12， 试 用 Fisher 判别 方法 判断 两 个 未 知 样本 是 从 甲 、 乙 两 个 区 域 中 的 哪 一 个 采 得 的 ， 并 给 
出 判别 函数 。 
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表 6.12 河流 As、Pb 的 污染 监测 表 
es 
/mg*17') /(mg*kg') VCmg"L 0D /(mg* kg') 
1 4.67 22. 31 12.31 47. 80 
甲 地 2 4.63 28. 82 16.18 62.55 
3 3.54 15. 29 7.58 43, 20 
Y 1.06 2.18 1.22 20. 60 
乙 地 2 0. 80 3.85 4.06 47. 10 
3 0. 00 11. 40 3. 50 0.00 
4 2.42 3.66 2.14 15.00 
样本 A 2.79 13. 85 7.80 49. 60 
样本 B 2.40 7.90 4.30 33. 20 





6， 试 述 距离 判别 、Fisher 判别 、Bayes 判别 的 区 别 与 联系 。 
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第 7 章 环境 主 成 分 分 析 


在 环境 统计 学 中 ， 经 常会 遇 到 环境 因素 复杂 、 因 子 众多 的 环境 数 锋 的 处 理 和 
分 析 。 如 何 对 这 些 因子 提取 主要 成 分 ， 以 便 对 实际 环境 问题 进行 系统 分 析 、 评 价 
是 很 重要 的 。 主 成 分 分 析 便 是 处 理 这 类 问题 的 有 效 工具 之 一 。 

主 成 分 分 析 (Principal components analysis) 也 称 主 分 量 分 析 ， 是 由 Hotelling 
在 1933 年 首先 提出 的 。 目 前 ， 主 成 分 分 析 在 经 济 管理 、 环 境 科学 与 环境 工程 等 
许多 方面 都 有 广阔 的 应 用 前 景 。 主 成 分 分 析 是 利用 对 高 维 变量 空间 进行 降 维 处 理 
的 思想 ， 把 多 个 指标 转化 为 少数 几 个 综合 指标 的 多 元 统计 分 析 方法 。 

本 章 的 主要 内 容 是 : 

图 主 成 分 分 析 概述 ; 

为 主 成 分 分 析 计 算 原理 ; 

为 主 成 分 分 析 基 本 性 质 ; 

@ 环境 应 用 。 


主 成 分 分 析 的 工作 对 象 是 一 张 样本 点 乘 以 变量 指标 的 数据 表 。 它 的 工作 目的 
就 是 在 保证 信息 损失 量 最 小 的 前 提 下 ， 尽 可 能 提取 问题 的 主要 方面 ， 从 而 对 多 变 
量 数据 进行 最 佳 综合 简化 。 如 果 在 原 数据 表 中 有 p 个 变量 xz1，zs，…，z。， 主 
成 分 分 析 法 就 是 对 这 个 数据 表 中 的 信息 进行 重新 调整 组 合 ， 从 中 提取 m 个 综合 
变量 ，F,，…，F(m 二 p)， 使 这 m 个 综合 变量 能 最 多 地 概括 原 数据 表 中 的 
信息 。 也 就 是 说 ， 主 成 分 分 析 可 以 在 力 保 数据 信息 损失 最 少 的 原则 下 ， 对 高 维 变 
量 空间 进行 降 维 处 理 。 很 显然 ， 在 一 个 低 维 空间 作 系统 分 析 要 比 在 高 维 空间 容易 
得 多 。 英 国 统计 学 家 斯 格 特 (M. Scott) 在 1961 年 对 157 个 英国 城镇 的 发 展 水 平 进 
行 调 查 时 ， 测 量 的 原始 变量 有 57 个 。 而 通过 主 成 分 分 析 发 现 ， 只 需 5 个 新 的 综 
合 变量 (它们 是 原 变量 的 线性 组 合 ) 就 可 以 用 95% 的 精度 概括 原 数 据 表 中 的 信息 。 
这 样 ， 问 题 的 研究 一 下 子 从 57 维 降 到 5 维 。 可 以 想象 ， 在 5 维 空间 对 系统 进行 
任何 分 析 都 比 在 57 维 中 更 加 方便 、 快 捷 。 

在 对 多 变量 系统 进行 综合 简化 时 ， 有 一 种 情况 尤其 引起 人 们 的 关注 ， 如 果 能 
将 一 个 p 维 变量 系统 有 效 地 降 至 2 维 ， 就 可 以 在 一 个 平面 图 上 描绘 出 每 一 个 样本 
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点 ， 从 而 直接 观察 样本 点 之 间 的 相似 关系 以 及 样本 点 群 的 分 布 特点 和 结构 。 所 
以 ， 主 成 分 分 析 使 高 维 空间 中 数据 点 的 可 视 性 成 为 可 能 。 在 数据 信息 的 分 析 过 程 
中 ， 对 直观 图 像 的 观察 是 一 种 重要 的 分 析 手段 ， 它 可 以 更 好 地 协助 系统 分 析 人 员 
进行 思考 与 判断 ， 及 时 发 现 大 规模 数据 群 中 的 普遍 规律 与 特殊 现象 ， 提 高 数据 信 
息 的 分 析 效 率 。 

近年 来 ， 随 着 多 元 统计 方法 在 环境 、 经 济 和 管理 等 领域 的 推广 与 普及 ， 主 成 
分 分 析 又 有 了 十 分 重要 的 应 用 ， 从 而 成 为 构造 系统 评估 指数 、 对 系统 中 的 元 素 进 
行 评估 排序 的 常用 方法 之 一 。 事 实 上 ， 如 果 能 在 p 维 变量 的 数据 表 中 有 效 地 提取 
一 个 综合 变量 ， 而 这 个 综合 变量 能 以 较 高 的 精度 概括 原 数据 表 中 的 信息 ， 它 就 有 
可 能 成 为 一 个 系统 评估 指数 。 用 主 成 分 分 析 构 造 评估 指数 的 方法 有 许多 成 功 的 应 
用 实例 。 英 国 统计 学 家 肯 道 尔 (M. Kendall) 曾 对 48 个 郡 的 小 麦 、 大 麦 、 落 麦 、 
土豆 、 菜 豆 、 马 铃 昔 、 葛 卜 、 饲 料 甜 菜 、 临 时 牧场 干草 、 永 久 牧 场 干草 10 种 主 
要 农作物 进行 生产 调查 。 在 进行 主 成 分 分 析 后 ， 以 47. 6% 的 精度 提取 了 一 个 最 
佳 的 综合 变量 (第 一 主 成 分 ) Pi 作为 系统 评估 指数 。 肯 道 尔 将 这 个 综合 变量 已 称 
为 生产 能 力 水 平 ， 并 利用 这 一 指数， 把 英国 各 地 区 农作物 生产 按 FF 排序 和 分 类 。 
而 这 一 评估 结果 与 当时 有 关 农 业 生产 能 力 地 理 分 布 的 实际 情况 是 十 分 一 致 的 。 可 
见 ， 主 成 分 分 析 作为 多 元 统计 分 析 方法 ， 在 实践 中 具有 重要 的 研究 意义 。 


在 主 成 分 分 析 中 ， 在 数据 表 内 提取 的 综合 变量 被 称 为 主 成 分 。 怎 样 在 数据 表 
中 提取 主 成 分 ， 使 之 能 最 好 地 概括 原 数据 表 中 的 信息 ? 又 怎样 能 够 将 一 个 高 维 空 
间 进 行 降 维 处 理 ? 

在 统计 学 中 ， 说 到 数据 集合 中 的 信息 ， 一 般 常常 指 这 个 集合 中 的 数据 变异 的 
情况 。 例 如 ， 在 回归 分 析 中 ， 回 归 方程 的 测定 系数 就 是 要 测量 在 多 大 程度 上 能 用 
回归 方程 来 解释 y 的 变异 。 而 在 一 张 数据 表 中 ， 数 据 集合 的 变异 信息 可 以 用 全 部 
变量 方差 的 总 和 来 测量 。 方差 越 大 ， 数 据 中 包含 的 信息 就 越 多 。 

假设 有 一 个 二 维 数据 表 (p 二 2)， 表 中 样本 点 的 分 布 如 图 7 -1 所 示 ， 呈 圆 棍 
形状 , 重心 是 g。 很 显然 ， 在 沿 棍子 轴 的 方向 al 上 ， 数 据 的 离 差 最 大 ， 因 此 ， 所 
反映 的 数据 信息 也 最 多 ， 这 个 方向 被 称 为 数据 变异 最 大 的 方向 。 如 果 将 坐标 原点 
平移 到 g， 并 且 作 旋 转变 换 ， 得 到 一 个 正 交 坐标 系 a1gas。 将 样本 点 在 w 轴 上 投 
影 得 到 新 变量 Fl ， 则 已 是 一 个 能 携带 最 多 原 变异 信息 的 综合 变量 ， 这 就 是 所 要 
提取 的 第 一 主 成 分 。 而 如 果 省 略 az 轴 ， 就 会 得 到 一 个 简化 的 一 维 数据 系统 。 所 
以 ， 对 高 维 数据 系统 进行 降 维 处 理 的 核心 思想 ， 就 是 省 却 变异 不 大 的 变量 方向 
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( 何 晓 群 ，2003)。 





图 7-1 二 维 数据 图 


又 如 ， 一 个 三 维 数据 表 的 样本 点 分 布 是 球形 的 。 假 车 这 个 球 是 饼 状 的 ， 其 变 
异 较 大 的 方向 为 w ，o ， 而 as 方向 上 的 变异 很 小 ， 即 在 该 方向 上 样本 点 取 值 没 
有 很 大 的 差别 ， 就 可 以 不 考虑 oa 方向 。 若 以 w go 作为 新 的 坐标 系 来 分 析 数 据 ， 
则 原 三 维 空间 的 数据 点 就 可 以 在 二 维 平面 上 得 以 显示 。 将 所 有 样本 点 分 别 在 w， 
as 上 投影 ， 就 得 到 携带 原 数 据 变异 信息 最 多 的 新 综合 变量 Fi ， 以 及 携带 原 变异 
信息 次 多 的 新 综合 变量 Faz 。 

推广 到 更 一 般 的 情形 。 设 原始 数据 表 中 的 变量 为 zi ，z，…，zz。 主 成 分 
分 析 的 过 程 实质 上 是 对 原 坐 标 系 进行 平移 和 旋转 变换 ， 使 得 新 坐标 系 的 原点 与 样 
本 点 集合 的 重心 重合 ， 新 坐标 系 的 第 一 轴 与 数据 变异 的 最 大 方向 对 应 ， 新 坐标 系 
的 第 二 轴 与 第 一 轴 标 准 正 交 ， 并 且 对 应 于 数据 变异 的 第 二 大 方向 ， 依 次 类 推 。 这 
些 新 轴 分 别 被 称 为 第 一 主轴 ， 第 二 主轴 ，…… 。 若 经 舍弃 少量 信息 后 ， 由 主轴 
w，w，…，un 构成 的 子 空间 能 够 十 分 有 效 地 表示 原 数 据 的 变异 情况 ， 则 原来 的 
户 维 空间 就 被 降 至 mm 维 。 这 个 新 生成 的 m 维 子 空间 被 称 为 m 维 主 超 平面 。 当 
m 二 2 时 ， 就 称 其 为 主 平面 。 可 以 用 原样 本 点 集合 在 主 超 平面 的 第 主轴 上 的 投 
影 构成 综合 变量 Fi ER"(h 二 1，2，…，m)， 称 为 第 hh 主 成 分 。 若 以 方差 D(F;) 
度量 第 主 成 分 已 所 携带 的 变异 信息 ， 则 主 成 分 分 析 的 结果 是 : 

D(F1)>D(F;,)>*… 宇 D(Fn)>0 
记 XX 是 一 个 有 nn 个 样本 点 和 思 个 变量 的 数据 表 : 


ee 
| 
样本 点 e 一 (za，…，zao) ER?。 
为 推导 方便 ， 且 不 失 一 般 性 ， 设 该 数据 表 是 标准 化 的 ( 即 下 (三 ) 一 0， 


X=(zy)sxp= 
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D (zj;) 二 1)。 现 要 求 一 个 综合 变量 Fi，Fi 是 z1，z:，*…，zp 线性 组 合 , 记 避 i 
三 (aiiy 02 5 ip xD， Kis oo 2 也 NN: 
Fi=aix, lall=1 


要 使 得 Fi 能 携带 最 多 的 原 变异 信息 ， 即 要 求 FF 的 方差 取 到 最 大 值 。 这 里 ,我 们 
不 限定 样本 点 集合 一 定 是 随机 抽样 得 到 的 ， 因 此 ，F' 的 方差 为 : 


DF =aiX'Xa =aiVa 


这 里 ， 记 V=2XX 是 X 数据 表 的 协 方差 矩阵 。 当 X 中 的 变量 均 是 标准 化 变量 


时 ，V 就 是 X 的 相关 系数 矩阵 。 
把 上 面 的 问题 写成 数学 表达 式 ， 即 求 优化 问题 : 
max, aiVas 
采用 拉 格 朗 日 (Lagrange) 算 法 求解 ， 记 1 是 拉 格 朗 日 系数 ， 令 : 
工 一 aiVai 一 haia 一 1) 
对 工分 别 求 关于 ai 和 为 的 偏 导 ， 并 令 其 为 零 ， 有 : 
aL 


Tr A ee {FN 
2 
a (aiq—D)=0 (7.2) 
由 式 (7.1) 得 : 
Ya 一 Na (7.3) 


由 此 可 知 ，ai 是 V 的 一 个 标准 化 特征 向 量 ， 它 所 对 应 的 特征 值 是 2 。 而 根 

据 目 标 函 数 及 上 式 ， 有 : 
DCRF) 一 ayai 一 ai (na ) 一 Nata 一 (7.4) 

所 以 ，a 所 对 应 的 特征 值 X 应 取 到 最 大 值 。 

换 句 话说 ， 我 们 所 要 求 的 m 是 矩阵 Y 的 最 大 特征 值 M; 所 对 应 的 标准 化 特征 
向 量 。 这 里 ，a 被 称 为 第 一 主轴 ，F 二 a1X 被 称 为 第 一 主 成 分 。 

接着 ， 可 以 求 第 二 主轴 a;，a; 与 wm 标准 正 交 (asa 一 0， 上 as 上 一 1)， 并 且 
仅 次 于 第 一 主 成 分 Fi， 第 二 主 成 分 F, 二 asx 是 携带 变异 信息 第 二 大 的 成 分 。F 
的 方差 为 : 

DF ) 一 La2X Xas=alVas 


写成 优化 问题 ， 即 : 
max a2Vaz 


asaqai=0, asas=1 
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类 似 于 求 Fi 的 过 程 ， 定 义 拉 格 朗 日 函数 为 : 
了 一 a2Vaz 一 hz(a2az 一 1) 
求 了 关于 as* 与 4: 的 偏 导 ， 并 令 之 为 零 ， 得 : 


Va:=Azaz (7.5) 
as0i=1 (7.6) 

as 是 矩阵 V 的 标准 化 特征 向 量 ， 它 所 对 应 的 特征 根 是 jz， 而 
hs=asVas=D(F;,) 人 


由 于 有 约束 azaj 一 0， 因此 ， 这 时 X 只 能 是 矩阵 V 的 第 二 大 特征 值 ，as 是 对 应 于 
V 第 二 大 特征 值 的 标准 化 特征 向 量 。 
依次 类 推 , 可 求 得 入 数据 表 的 第 h 主轴 wx， 它 是 协 方差 矩阵 V 的 第 h 个 特 
征 值 %; 所 对 应 的 标准 化 特征 向 量 。 而 第 hh 主 成 分 FF， : 
F;=alx (7. 8) 
由 : 
D(F,)=alVa, =al Van) = (7.9) 
因此 ， 有 DCF\) 三 DCF,) 三 … 二 DCF。)。 
所 以 ， 用 数据 变异 大 小 来 反映 数据 中 的 信息 ， 则 第 一 主 成 分 已 携带 的 信息 
量 最 大 ,已 次 之 ， 以 此 类 推 。 如 果 抽 取 了 xm 个 主 成 分 ， 这 m 个 主 成 分 所 携带 的 
信息 量 总 和 为 : 


YDpr,) 3 7 (7.10) 
归纳 上 述 分 析 可 以 看 出 ， 主 成 分 分 析 的 计算 步骤 如 下 : 
(1) 对 数据 进行 标准 化 处 理 : 
信守 Gi=1, 2, ,ny 7 一 1，2，…， 力 ) 


式 中 , 五 是 z 的 样本 均值 ，s; 是 xz; 的 样本 标准 差 。 

标准 化 处 理 的 目的 是 使 样本 点 集合 的 重心 与 坐标 原点 重合 ， 而 压缩 处 理 可 以 
消除 由 量 纲 不 同 所 引起 的 虚假 变异 信息 ， 使 分 析 结果 更 加 合理 。 为 方便 起 见 ， 仍 
记 标 准 化 处 理 的 矩阵 为 六。 

(2) 计 算 标 准 化 数据 矩阵 X 的 协 方差 矩阵 V， 这 时 又 是 X 的 相关 系数 
和 矩阵; 

(3) 求 V 的 前 m 个 特征 值 M: 三 jz 二 … 过 Min， 以 及 对 应 的 特征 向 量 wm， 
a:，…，an， 要 求 它们 是 标准 正 交 的 ; 

(4) 求 第 个 成 分 的 累计 贡献 率 : 
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之 
姑 一 二 一。 (mh 
之 
(5) 求 第 h 主 成 分 F,， 有 
F,=alx= Dar (7.11) 
式 中 ， aw 是 主轴 a 的 第 j 个 分 量 。 所 以 ， 主 成 分 及 是 原 变量 x1，zx2，*…， xz， 


的 线性 组 合 ， 组 合 系数 恰 好 为 aw。 从 这 个 角度 ， 又 可 以 说 Fi 是 一 不 新 的 综合 
变量 。 


主 成 分 分 析 主 要 有 以 下 几 条 基本 性 质 ; 
(1) 主 成 分 的 样本 均值 等 于 零 。 记 E(F; ) 为 样本 均值 ， 有 
E(F,) = 1 Br) = 1 2 Do = bo 2 )- 
式 中 ，F (让 是 F 的 第 i 个 分 量 。 
(2)FF 的 样本 方差 等 于 A,， 即 : 
D(F,)=% 
这 个 结论 在 式 (7. 9) 中 已 经 给 予 证 明 。 


(3) 各 个 主 成 分 之 间 是 互 不 相关 的 ， 即 样本 协 方差 为 : 
Cov(F,, F)=0 (Vl#h) (7 并 六 





证 明 : 
Cov(F;,, F,)=alVai=a (Mai)=X ata=0 

这 个 性 质 说 明 经 过 主 成 分 分 析 ， 可 将 原始 测量 的 p 个 相关 变量 变换 成 一 组 相 
互 无 关 的 正 交 变量 ( 即 主 成 分 之 间 的 协 方差 等 于 零 )。 在 许多 实际 应 用 中 ， 变 量 系 
统 的 正 交 性 是 十 分 有 益 的 性 质 。 由 于 各 个 变量 中 所 含 的 信息 是 互补 的 ， 并且 在 信 
息 中 间 没 有 交叉 重 释 ， 这 将 对 进一步 开展 其 他 方面 的 统计 分 析 带 来 许多 便利 。 

从 上 面 的 讨论 可 知 ， 主 成 分 分 析 过 程 可 示意 为 : 

(zx1, ", Zp) 下 放生 (Fs, *, Fw)  (m<p) 

记 F=(Fi，…，F,) 是 新 变量 系统 下 的 数据 表 ， 它 是 由 原 数据 表 X= (zi，…，zz,) 
经 数学 变换 ， 并 省 略 一 部 分 信息 而 得 到 的 。 可 以 记 为 : 
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6 
下 一 (FL，…，Fu) 一 : 
的 
2 是 数据 表 下 的 第 ; 个 样本 点 ， 它 为 : 
6 一 (FI CD，…，F(GD)” (i=1, 2, *, n) 
记 集 合 A= 4&} (这 1，2，…，72， 则 A 的 重心 是 与 原点 重合 的 ， 即 ; 
Lo 
_ 人 ZRD 
让 二 六 = | = 
‘=t 六 
FD 


因此 ，e; 到 重心 8 二 0 的 距离 为 : 
di(e;, 0)= Dm (7.13) 


这 里 特别 需要 指出 的 是 ， 如 果 取 m 三 p»， 则 主 成 分 分 析 只 相当 于 在 原 p 维 空 
间 中 作 了 一 次 坐标 变换 ， 而 没有 任何 信息 损失 。 这 时 ， 样 本 点 ei 二 (Fi(i)，…， 
下,( 让 )"E R? 不 过 是 原样 本 点 e; 在 新 坐标 系 下 的 重新 表示 。 所 以 ， 这 时 e; 到 原点 
的 距离 为 : 


de 0) = 2 FIG) (7.14) 
h=l 


由 于 环境 系统 是 一 个 复杂 的 开放 大 系统 ， 环 境 质 量 的 变化 是 各 变量 (因素 ) 综 
合作 用 的 结果 ， 主 成 分 分 析 的 重要 作用 之 一 就 是 区 分 主要 因素 与 次 要 因素 。 除 此 
之 外 ， 主 成 分 还 有 下 列 一 些 用 途 ( 陈 玉成 等 ，1998): 

(DD 压 缩 原始 数据 ， 减 轻 环境 工作 者 综合 分 析 的 负担 ; 

(2) 使 用 综合 评价 值 对 样本 和 变量 进行 分 类 ,探索 污染 源 ， 分 析 污 染 物 的 时 
空 分 布 规律 ; 

(3) 确 定 环境 质量 评价 中 各 要 素 的 相对 重要 性 (权重 ); 

(4) 分 析 环 境 污 染 的 理化 过 程 ; 

(5) 环 境 质 量 监测 的 优化 布点 ; 

56) 与 回归 分 析 、 聚 类 分 析 、 因 子 分 析 等 其 他 多 元 统计 分 析 结 合 ， 从 原始 数 
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据 中 提取 更 多 的 有 用 信息 。 

在 进行 主 成 分 分 析 时 ， 需 注意 以 下 几 点 : 

(1) 只 取 第 一 主 成 分 。 一 般 说 来 ， 第 一 主 成 分 在 较 大 程度 上 全 面 综合 了 各 指 
标的 信息 ， 用 它 就 可 作 综合 评价 指标 。 

(2) 当 原始 各 指标 对 综合 指标 都 为 正 指标 时 ， 主 成 分 F 中 系数 绝对 值 较 大 者 
应 有 同一 的 符号 且 都 为 正 值 。 若 系数 绝对 值 较 大 者 都 为 负 值 ( 即 这 个 主 成 分 与 这 
些 原 指标 为 负 相 关 )， 此 时 应 把 相应 特征 向 量 改 向 。 

(3) 若 觉得 用 一 个 主 成 分 解释 的 方差 不 够 大 ， 综 合 程度 不 够 ， 而 用 多 个 主 成 
分 综合 又 不 合适 时 ， 用 因子 分 析 中 方差 最 大 的 正 交 旋转 可 能 会 取得 较 好 的 效果 。 

例 7.1 主 成 分 分 析 在 大 气 环境 质量 评价 中 的 应 用 

将 大 气 环境 质量 的 评价 等 级 从 好 到 坏 分 为 4 级 ， 大 气 环境 质量 评价 标准 见 表 
7.1。1993 年 西南 铝 加 工厂 各 季度 单元 中 各 评价 指标 的 实际 监测 浓度 值 见 表 7. 2。 
试 对 各 季度 大 气 环境 质量 进行 评价 。 











表 7.1 大 气 环境 质量 评价 标准 单位 : mg/mm 
指标 
Se SO: (x1) NO, (zx:) TPSCzs) 
I 级 (e1) 0.05 0.05 0.15 
了 I 级 (es) 0.15 0.10 0.30 
有 级 (es) 0.25 0.15 0.50 
TV 级 (ee ) 0. 85 0.50 1.70 


-一 ”一 


注 ，V 为 严重 污染 临界 浓度 。 











表 7.2 各 季度 单元 中 各 评价 指标 实测 浓度 值 ”单位 : mg/mm 
E 指标 
季度 单元 
SO: (m1) NO (zx) TPSCm) 
第 一 季度 (e;) 0.046 0.036 0.086 
第 二 季度 (es) 0.139 0.044 0.152 
第 三 季度 (e;) 0.032 0.014 0.159 


第 四 季度 (es) 0.056 0.016 0.183 
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解 ” 原 决策 矩阵 : 

0.0500 0.0500 0.1500 

0.1500 0.1000 0.3000 

0.2500 0.1500 0.5000 

w=|%8500 0.5000 1.7000 

0.0460 0.0360 0.0860 

0.1390 0.0440 0.1520 

0.0320 0.0140 0.1590 

0.0560 0.0160 0.1830 

， 标 准 差 标准 化 处 理 后 的 矩阵 为 : 

一 0.5347 一 0.3921 一 0.470 3 
一 0.1700 一 0.0845 一 0.192 3 
0.1947 0.2229 0.1784 
A=| 23828 2.3748 2.4025 


一 0.5493 一 0.478 0 一 0.588 9 

一 0.2102 一 0.428 9 一 0.466 6 

一 0.6004 一 0.613 3 一 0.4536 

0.5129 一 0.6010 一 0.409 2 
2. 计算 标准 化 数据 算 降 4 的 协 方差 矩阵 : 
1.0000 0.9936 0.9925 
0.993 6 1.0000 0.9931 
0.9925 0.9931 1.0000 
3，, 求 C 的 特征 值 4 三 4 三 Xs 以 及 对 应 的 特征 向 量 ww。，us， 要 求 它 们 是 

标准 正 交 的 。 


C= 





0.3333 0.3771 0.3551 
0.3334 0.1229 一 0.4999 
0.333 3 一 0.5001 0.1450 
= We, ui) 
A1=2.986 2 Xs=0.007 6 Ns=0.0063 
4. 累计 贡献 率 : a=0. 995 4>85% 
5. 求 第 一 主 成 分 FI， 有 : 
F, =Au 
一 (一 0.465 7 —0.149 0 0.198 6 2.386 7 一 0.5388 一 0. 368 5 
一 0.555 8 一 0. 507 7) 


U= 
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6。 综合 评价 : 
已 一 (一 0. 46517 —(0.149 0 0.198 6 2 386 7 一 0..538.8 —0..3685 
一 0.555 8 一 0. 507 7) 
按 Fl 由 小 到 大 的 顺序 排列 方案 的 优先 次 序 ， 结 果 是 : 
er<es<es<e ee ee 

根据 上 面 的 计算 结果 ， 可 判断 西南 铝 加 工厂 各 季度 大 气 环境 质量 从 优 到 劣 依 
次 为 : 第 三 季度 、 第 一 季度 、 第 四 季度 、 第 二 季度 。 由 于 第 三 季度 、 第 一 季度 、 
第 四 季度 的 大 气 环境 质量 优 于 工 级 标准 最 低 界限 值 ， 所 以 它们 都 属于 工 级， 而 第 
二 季度 的 大 气 环境 质量 介 于 工 级 和 开 级 标准 最 低 界限 值 之 间 ， 所 以 它 属于 工 级 。 
本 节 方 法 与 污染 损失 率 法 、 模 糊 综合 评判 方法 、 灰 关联 分 析 方法 、 多 目标 决策 一 
理想 区 间 法 和 变 权 识别 模型 等 的 评价 结果 相 一 致 。 各 评价 方法 的 对 比 结果 见 
表 7.3 





表 7.3 主 成 分 分 析 法 评价 结果 
评价 方法 第 一 季度 第 二 季度 第 三 季度 第 四 季度 
主 成 分 分 析 法 I I I 入 


例 7.2 主 成 分 分 析 在 天 然 气 开发 环境 影响 评价 中 的 应 用 

天 然 气 开发 钻井 施工 过 程 中 ， 环 境 影 响 主 要 有 以 下 几 个 方面 地震 勘探 作 
业 产 生 的 爆炸 噪声 将 影响 环境 及 其 附近 的 居民 和 野生 动物 ，@@ 钼 井 作业 对 环境 的 
影响 因素 主要 有 修建 钻井 井 场 和 井 场 公路 两 个 方面 ， 平 均 每 口 井 需 征用 井 场 用 地 
面积 约 为 6. 67X 10' m*， 井 场 公路 的 占 地 面积 取决 于 井 场 与 交通 公路 的 距离 ; 
图 道路 施工 会 造成 季节 性 的 水 土 流失 问题 ， 在 修建 集 气管 道 时 ， 数 设 管 沟 的 开 挖 
施工 将 破坏 管道 沿线 两 侧 各 7. 5 m 范围 内 的 植被 ， 在 施工 期 会 对 坡度 大 于 5 的 施 
工地 段 的 水 土 保 持 产 生 较 大 的 影响 ， 轿 天 然 气 开发 正常 运行 期 间 对 环境 的 影响 较 
小 ， 主 要 是 钻井 过 程 中 柴油 机 会 产生 废气 ， 钻 井 、 起 下 钻 、 固 井 作业 等 产生 废 
水 ， 机 械 设备 运转 会 产生 噪声 ， 此 外 ， 还 有 钴 井 岩 屑 、 废 泥浆 等 产生 ; @ 采 气 生 
产 活动 中 当 集 气 设施 (如 管道 、 分 离 器 、 阀 门 等 ) 需 要 检修 或 出 现 爆 管事 故 时 将 进 
行 天 然 气 燃烧 放空 作业 ， 放 空 产生 的 热 辐射 和 噪声 将 对 其 周围 的 居民 和 植被 产生 
一 定 影响 ; @ 采 气 生产 后 期 ， 地 层 水 含 盐 量 很 高 ， 外 排 时 会 对 受 纳 水 体 产生 一 定 
影响 :天然气 净化 时 ， 含 硫 天 然 气 燃烧 后 排放 的 SO; 会 污染 大 气 环境 ， 天然气 
净化 厂 还 将 排放 少量 废水 和 产生 轻微 噪声 污染 ( 周 晓 东 等 ，2000; 师 春 元 等 
2001)。 
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四 川 盆地 是 我 国 天 然 气 开采 较 早 、 储 量 较 丰富 的 区 域 ， 在 满足 四 川 省 和 重庆 
直辖 市 需求 的 同时 ， 通 过 管道 外 送 部 分 剩余 气量 。 德 阳 地 区 孝 泉 一 新 场 一 合 兴 场 
气田 开发 工程 (以 下 简称 孝 新 合 气田 工程 ) 位 于 成 都 平原 西 侧 ， 在 德阳 市 北 侧 ， 跨 
德阳 市 所 辖 绵竹 县 及 德阳 市 旋 阳 区 的 众多 乡镇 ， 距 成 都 约 80 km， 地 理 坐 标 为 东 
经 104"11' 一 104"34'， 北 纬 31"08' 一 31"204。 其 区 域 地理 位 置 见 图 7-2。 孝 新 合 气 
田 工 程 所 在 地 区 地 表 主 要 河流 有 石 亭 江 、 绵 远 河 、 凯 江 三 条 。 








图 7-2 德阳 地 区 孝 泉 一 新 场 一 合 兴 场 气田 开发 工程 范围 示意 图 


在 区 域 开发 区 内 3 条 主要 河流 上 选择 多 个 具有 代表 性 的 地 表 水 监测 断面 ， 根 
据 项 目 特点 和 实际 需求 ， 主 要 的 测量 指标 有 pH 值 、CODw 、 石 油 类 、 挥 发 酚 四 
个 指标 。 天 然 气 开发 前 、 后 均 在 河流 上 同一 个 采样 点 按 每 天 7 个 时 段 进行 取样 分 
析 ， 其 监测 数据 如 表 7. 4 所 示 。 将 每 一 流域 上 不 同时 段 的 监测 数据 取 平均 值 ， 可 
得 代表 每 一 流域 的 水 样 监测 分 析 结 果 ， 具 体 见 表 7. 5。 
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表 7.4 天 然 气 开发 前 、 后 流域 地 表 水 水 质 监测 数据 
单位 ，mg/L(pH 值 除外 ) 
时 段 ”河流 8: 00 10: 00 12; 00 14: 00 16: 00 18: 00 20: 00 
绵 pH 值 7.50 7.60 7.30 7.82 800 7.10 7.60 
CODw 15.00 14.10 13.60 14.60 14.20 14.00 15.80 
过 石油 类 0.200 0.250 0.260 0.190 0.210 0.240 0.270 
河 摆 发 酌 “ 0.001 0.001 0.001 0.001 001 0.001 0.001 
开发 前 pH 值 9.30 9.60 875 8.90 9.00 9.20 10.00 
是 CODw 28.61 29.20 28.90 27.90 29.20 29.10 29.32 
石油 类 0.108 0.130 0.126 0.120 0.128 0.132 0.131 
有 8 挥发 酚 0.001 0.001 0.001 0.001 0.001 0.001 0.001 
厂 pH 值 8.00 8.20 8.50 803 7.80 7.90 8.03 
CODw 23.00 22.60 21.90 22.60 22.30 21.80 23.16 
. 石油 类 0.108 0.125 0.127 0.120 0.106 0.130 0.124 
江 挥发 酚 0.001 0.001 0.001 0.001 0.001 0.001 0.001 
纺 pH 值 8.13 8.18 8.24 8.09 8.06 8.21 8.23 
~ CODw 11.00 10.20 10.06 10.03 10.30 10.31 10.69 
石油 类 0.060 0.073 0.076 0.068 0.070 0.069 0.081 
挥发 酚 0.001 0.001 0.001 0.001 0.001 0.001 0.001 
发 后 pH 值 7.20 7.36 7.26 7.33 7.28 7.38 7.38 
RY 凯 CODw 21.20 20.10 20.06 19.87 20.30 19.92 19.04 
江 石油 类 0.062 0.068 0.053 0.049 0.051 0.060 0.070 
ey 挥发 酚 0.001 0.001 0.001 0.001 0.001 0.001 0.001 
pH 值 7.60 7.53 7.47 7.32 7.28 7.26 7.41 
CODw 31.00 30.04 30.86 31.40 31.08 31.30 31.60 
石油 类 0.108 0.101 0.110 0.098 0.097 0.094 0.113 
挥发 酚 0.001 0.001 0.001 0.001 0.001 0.001 _0.001 
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表 7.5 天 然 气 开发 前 、 后 流域 地 表 水 水 质 监测 数据 平均 值 和 国标 值 
单位 :mg/L(pH 值 除外 ) 














pH 值 CODw。 石油 类 挥发 酚 

国家 1 级 标准 9.00 15. 00 0.050 0.002 

国家 2 级 标准 9.00 20. 00 0.050 0.005 

国家 3 级 标准 9. 00 30. 00 0. 500 0.010 

绵 远 河 7.56 14.47 0. 231 0.001 

开发 前 凯 江 9. 25 28.89 0.125 0.001 
石 亭 江 8.08 22.48 0. 120 0.001 

绵 远 河 8.16 10.37 0.071 0.001 

开发 后 凯 江 tt 20.07 0. 059 0.001 
石 亭 江 7.41 31.04 0. 103 0.001 





解 (1) 根 据 主 成 分 分 析 法 ， 对 区 域 开发 前 、 后 的 监测 数据 和 国家 地 表 水 环 
境 质量 标准 (GB 3838 一 2002) 中 有 关 指 标的 标准 值 进行 标准 化 处 理 ， 得 到 标准 矩 
阵 A (开发 前 )、4s( 开 发 后 ) 。 
0.525 3 一 0.1234 一 0.758 4 一 0.368 9 
0.5253 一 0.2716 一 0.7584 0.4611 
0.5253 1.2319 1.8803 1.8443 


人 一 1.625 8 一 1.103 1 0.3030 一 0.645 5 
0.898 8 1.0650 一 0.3186 一 0.645 5 

一 0.849 0 0.101 2 一 05347 9 5—0,6455 
0.8503 一 0.7454 一 0.4990 一 0.368 9 

0.8503 一 0.1324 一 0.4990 0. 461 1 

pe 0.850 3 1.0936 2.028 6 1.8443 





0.1899 —1.3131 一 0.3810 —0.6455 
—1.2424 1.0650 一 0.3186 —0.6455 
一 0.849 07 0510121 一 0.347.9 一 0.6455 
(2 分别 求 上 迷 标 准 化 短 隆 的 协 方差 乱 阵 CG, CGC. 








0.9999 0.526 3 


_ | 0.5263 1.0000 
1 |=o.0585 0.5179 
0.406 9 0.4967 

1.0000 —0.1559 

_|—0.1559 1.0000 

” | 0.3462 0.5933 

0.6586 0.4740 

(3) 分 别 求 其 特征 矩阵 Di ，U> 和 特征 值 。 

0.4644 0.2569 

_|—0.3410 一 0.7428 

UT| 0.6312 一 0.0849 

一 0.5199 0.6124 

一 0.3909 0.4510 

_|=o.1576 0.6171 

De | -20,469 1, 二 0649 和 

0.7761 一 0.0368 
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一 0.058 5 
0.517 9 
1.0000 
0.7265 
0. 346 2 
0.593 3 
1.000 0 
0. 872 1 


0.767 0 
0. 200 5 
.588 1 
.160 1 
0.716 4 
.668 3 
.146 5 

0.136 6 


0.406 9 
0.496 7 
0.726 5 
1.000 0 
0.658 6 
0.474 0 
0.872 1 
1.000 0 


0. 360 6 
0. 540 7 
0.498 5 
0.573 0 
0.361 4 
0.3845 
0.5865 
0.6145 


计算 所 得 的 特征 值 列 于 表 7,6， 可 以 看 到 ， 对 于 项 目 开发 前 的 监测 结 汗 果 ，3 
个 特征 值 所 对 应 的 累计 贡献 率 因 王 100. 00%， 如 果 选 用 前 两 个 主 成 分 ， 那么 它们 
所 携带 的 数据 信息 已 经 完全 包括 了 原 有 所 有 数据 特征 的 93. 02%， 而 项 目 开发 后 





的 监测 数据 处 理 后 ， 前 两 个 主 成 分 代表 了 95. 09% 的 信息 。 











表 7.6 特征 值 、 贡 献 率 及 累计 贡献 率 一 览 表 
项 目 开 发 前 项 目 开发 后 
序号 h ja 加 办 ) 办 
特征 值 2.0616 0.7289 0.2094 2.2850 0.5676 0.1475 
贡献 率 % 68.72 24. 30 6.98 76. 17 18. 92 4.92 
累计 贡献 率 % 68.72 93.02 100. 00 76.17 95. 09 100.00 
根据 主 成 分 Fi ，F。 和 对 应 的 均值 权 数 a1，a: 之 积 已 -: 一 BaF, 计算 , 最 


后 得 到 各 水 域 的 综合 主 成 分 Fi-: 及 其 排序 ( 表 7. 7)。 


从 表 中 可 以 看 到 ， 在 项 目 进 


行 之 前 ， 石 亭 江 的 水 质 最 好 ， 优 于 国家 2 级 标准 ， 绵 远 河水 质 介 于 国家 2，3 级 
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标准 之 间 ， 而 凯 江 水 质 介 于 国家 3，4 级 标准 之 间 ; 项 目 竣工 验收 时 ， 区 域内 所 
有 的 水 质 都 已 经 达到 了 国家 2 级 标准 以 上 ， 凯 江水 质 最 优 ， 接 下 来 是 石 亭 江 和 绵 
远 河 。 由 此 可 知 ， 区 域 开发 实施 未 对 区 域 地 表 水 环境 产生 负面 影响 ， 而 且 区 域 开 
发 进行 时 实施 的 环境 保护 设备 还 有 助 于 区 域 环境 质量 的 改善 。 








表 7.7 各 水 域 综合 主 成 分 FF-: 及 其 排序 
国家 2 级 标准 ”国家 3 级 标准 ”国家 4 级 标准 ” 绵 远 河 。 凯 江 五 亭 江 


Fi-s 一 0.368 6 0.155 7 1.471 9 一 L.2487 0.5461 一 0.556 6 
排序 2 4 6 3 5 











Fs 0.0253 0.405 6 1.869 1 一 0.538 1 一 0.976 4 一 0.785 7 
开发 后 - 
排序 4 5 6 3 1 2 





通过 四 川 省 德阳 地 区 孝 泉 一 新 场 一 合 兴 场 气田 开发 工程 开发 前 后 区 域 地 表 水 
环境 质量 的 分 析 ， 可 以 看 出 主 成 分 分 析 法 对 于 评估 区 域 水 环境 质量 是 可 行 的 、 有 
效 的 ， 且 非常 适用 ， 能 够 在 原始 信息 损失 最 少 的 情况 下 ， 综 合 考虑 各 个 参数 的 结 
果 ， 通 过 主 成 分 分 析 对 区 域内 不 同 部 分 的 水 环境 质量 进行 分 级 评估 ， 通 过 排序 ， 
可 以 知道 区 域内 不 同 区 块 的 波动 情况 。 主 成 分 分 析 法 比 原来 简单 地 和 国家 环境 标 
准 进行 比较 的 评价 方法 更 加 全 面 地 了 解 了 区 域 水 环境 的 变化 特征 ， 为 区 域 水 环境 
安全 的 研究 提供 了 评价 依据 。 


【思考 题 7】 


1， 试 述 主 成 分 分 析 的 基本 思路 。 

2， 试 述 主 成 分 的 几何 意义 。 

3， 以 国家 地 表 水 环境 质量 标准 为 依据 ( 表 7. 8)， 将 水 环境 质量 划分 为 5 个 等 级 。 具体 的 
水 环境 数据 来 自 于 2004 年 国家 水 环境 质量 状况 公报 ， 选 取 三 个 指标 作为 评价 环境 质量 的 依 
据 。 具 体 数据 见 表 7.9， 试 用 主 成 分 分 析 评价 各 湖区 地 表 水 环境 质量 的 好 坏 。 

@ 求 样 本 的 相关 矩阵 R; 

@ 求 R 的 特征 值 及 其 特征 向 量 ; 

@ 求 各 主 成 分 的 累计 贡献 率 ; 

@ 求 第 一 个 主 成 分 ， 并 进行 分 析 。 
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表 7.8 地 表 水 环境 质量 标准 
标准 等 级 高 锰 酸 盐 指数 总 磷 / (mg "LL ') 总 氮 / (mg* LL ') 
I 类 2 0.010 0.2 
工 类 4 0.025 0.5 
卫 类 6 0.050 1.0 
类 10 0. 100 li 
VY 类 15 0. 200 2.0 
表 7.9 2004 年 太湖 湖 体 主要 污染 指标 浓度 
湖区 高 锰 酸 盐 指数 总 磷 / (mg。L 1) 总 氮 / (mg* 1 ') 
五 里 湖 7.1 0.144 7.00 
梅 梁 湖 S57 0.102 5.27 
西部 沿岸 区 5.4 0.107 3,33 
东部 沿岸 区 4.0 0.056 1.71 
湖 心 区 4.2 0.059 1.90 
全 湖 平均 4.7 0.078 2.82 





4。 某 地 区 22 个 样 地 A 层 土壤 重金 属 含量 测定 结果 见 表 7. 10， 试 用 主 成 分 分 析 对 各 样 地 











的 7 种 重金 属 元 素 进行 评价 。 
表 7.10 土壤 重金 属 测定 结果 ”单位 : mg/km 
序号 Cd Cr Cu Ni Pb Hg As 
1 0.221 89. 52 42. 66 32. 63 46. 50 0. 530 10. 90 
2 0. 462 57. 21 46. 49 25. 42 27. 35 0. 082 7.82 
3 0. 132 73. 28 31. 40 34. 38 37.98 0.370 11.47 
4 0. 109 57. 88 25.70 25. 82 31.11 0.114 7.54 
5 0.078 44. 57 36. 60 22.06 22. 65 0.187 7.39 
6 0.129 63.34 22.63 26. 85 23. 86 0.033 6. 90 
7 0. 132 74. 83 18. 57 31.71 32.54 0.137 9.08 
8 0.170 73.32 56. 27 41. 84 27.45 0.746 10.46 
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续 表 
序号 Cd Cr Cu Ni Pb Hg As 
办 0. 202 86. 26 63.34 51.04 33. 42 0. 304 10. 70 
10 0.119 68. 62 12. 45 25.79 28. 23 0.056 7.07 * 
11 0.063 35. 39 13. 58 16. 17 18. 29 0. 167 12.15 
12 0. 142 68. 41 29.18 33. 33 28. 96 0.072 10. 67 
13 0. 134 85. 39 26. 60 37.90 40. 04 0. 290 6.60 
14 0. 051 24.61 10. 69， 13.80 17.65 0. 184 8. 49 
15 0.038 42. 23 5.51 10.20 11.24 0.036 5.08 
16 0.121 49.73 37. 14 32.78 21.41 0.579 5.62 
17 0.047 26.93 8.79 10. 64 15.71 0.029 10.49 
18 0.065 60.17 13. 86 18.48 21.04 0.091 10.07 
19 0.065 35. 84 11.64 17.23 21.37 0.055 8. 50 
20 0.044 34.19 15. 69 12.97 9. 80 0.031 9.86 
21 0.055 30.19 9. 96 13. 42 13.03 0.046 10.09 
22 0.058 27.78 10.99 15.65 14.19 0.034 13.08 
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在 环境 科学 中 ， 我 们 经 常会 遇 到 环境 因素 众多 的 数据 处 理 和 分 析 问题 。 对 这 
些 众 多 的 因素 ， 如 何 提取 主要 因子 ， 找 出 每 个 主因 子 的 明确 意义 ， 以 便 对 实际 环 
境 问题 进行 系统 分 析 与 评价 ， 这 在 实际 应 用 中 非常 重要 。 因 子 分 新 的 概念 起 源 于 
20 世纪 初 K. Pearson，C. Spearmen 等 人 关于 智力 测验 的 统计 分 析 。 近 年 来 ， 随 
着 电子 计算 机 的 普及 ， 人 们 将 因子 分 析 的 理论 广泛 应 用 于 环境 、 资 源 、 气 象 及 经 
济 等 领域 。 本 章 重点 阐述 因子 分 析 的 基本 原理 因子 分 析 模型 的 构建 和 求解 ， 并 
结合 环境 案例 分 析 该 方法 在 环境 科学 中 的 应 用 。 

本 章 的 主要 内 容 是 : 

为 因 了 于 分 析 概述 ; 
国正 交 因子 模型 
@@ 正 交 因子 模型 的 统计 意义 ; 
@ 正 交 因子 模型 的 求解 ; 

@ 因 于 旋转 ; 
@ 因子 得 分 ; 
@ 环境 应 用 。 


因子 分 析 的 基本 思想 是 根据 相关 性 大 小 把 变量 分 组 ， 使 得 同 组 内 的 变量 之 间 
相关 性 较 高 ， 但 不 同 组 的 变量 相关 性 较 低 。 每 组 内 的 变量 代表 一 个 基本 结构 ， 这 
个 基本 结构 称 为 公共 因子 。 对 于 所 研究 的 问题 ， 可 试图 用 最 少 个 数 的 不 可 测 的 所 
谓 公共 因子 的 线性 函数 与 特殊 因子 之 和 来 描述 原来 观测 的 每 一 分 量 ， 即 因子 分 析 
是 将 原 变量 重新 进行 因子 分 解 ， 利 用 数学 工具 将 众多 的 原 变 量变 换 成 由 少数 独立 
的 新 变量 组 成 ， 这 种 新 变量 称 为 因子 。 因 子 分 析 就 是 找 出 这 些 影响 系统 的 最 少 的 
独立 变量 的 因子 ， 用 较 少 具有 代表 性 的 因子 来 概括 多 变量 所 提供 的 信息 ， 找 出 影 
响 观 测 数 据 的 主要 因素 ， 反 映 环境 间 内 在 的 关系 。 

因子 分 析 是 从 所 研究 的 全 部 原始 变量 中 将 有 关 信 息 集中 起 来 ， 通 过 探讨 相关 
和 矩阵 的 内 部 依赖 结构 ， 将 多 变量 分 解 成 少数 因子 ， 以 再 现 原始 信息 之 间 的 内 在 关 
系 ， 并 进一步 探讨 产生 这 些 相关 关系 的 内 在 原因 的 一 种 多 元 统计 分 析 方 法 。 因 子 
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分 析 可 分 解 为 公共 因子 和 特殊 因子 两 部 分 ， 它 们 客观 存在 ， 但 又 不 能 直接 被 测量 
到 。 例 如 在 环境 统计 中 ， 描 述 环境 污染 现象 的 指标 有 很 多 ， 甚 至 多 到 几 十 个 。 通 
过 因子 分 析 ， 可 以 从 错综复杂 的 环境 现象 中 找 出 少数 几 个 主要 因子 (方面 )， 例 如 
对 大 气 粉 侍 污染 的 主要 污染 源 的 因子 分 析 ， 从 旋转 后 的 因子 载荷 矩阵 可 以 找 出 大 
气 颗 粒 来 源 主要 来 自燃 油 的 作用 (方面 )、 燃 煤 效应 (方面 )、 风 沙 尘 土 (方面 ) 三 个 
因素 。 为 此 可 以 帮助 我 们 对 复杂 现象 产生 的 原因 进行 分 析 和 解释 。 

因子 分 析 还 可 以 对 变量 或 样本 进行 分 类 。 根 据 因子 得 分 值 ， 在 因子 轴 所 构成 
的 空间 中 把 变量 或 样本 点 画 出 来 ， 形 象 直观 地 达到 分 类 的 目的 。 

因子 分 析 一 般 分 为 两 类 ， 一 类 是 研究 变量 (指标 ) 之 间 相 互 关系 的 玉 型 因子 分 
析 ， 另 一 类 则 是 研究 样本 之 间 相 互 关 系 的 Q 型 因子 分 析 。 前 者 出 发 点 是 实测 指标 
间 相 关系 数组 成 的 矩阵 ， 而 后 者 则 建立 于 样本 间 相似 系数 组 成 的 和 矩阵。 下 面 着 重 
介绍 R 型 因子 分 析 。 


因子 分 析 有 确定 的 模型 ， 初 学 因子 分 析 最 大 的 困难 在 于 理解 它 的 模型 ， 为 了 
理解 因子 分 析 的 模型 ， 我 们 从 一 个 例子 人 手 。 

例 8.1 城市 环境 质量 评价 指标 有 : COD、BOD:、NH:、TSP、SO, 和 
NO.， 现 有 100 个 样本 ， 用 Xw 一 (zu，ze，…，xz6) (1 二 1，2，…，100) 来 表 
示 , 由 X% (=1，2，…，100) 求 得 样本 的 相关 和 矩阵 及 一 (mm )sxse， 其 中 ri 为 第 i 
个 指标 与 第 j 个 指标 间 的 样本 相关 系数 。R 的 具体 结果 如 下 : 

1.00 

0.72 1.00 

0.63 0.57 1.00 

0.09 0.16 0.14 1.00 
0.09 0.16 0.15 0.57 1.00 


0.00 0.09 0.09 0.63 0:72 1.00 
从 相关 和 矩阵 R 可 以 看 出 ， 前 三 个 指标 中 两 两 指标 之 间 的 相关 系数 比较 大 ， 后 








”三 个 指标 中 两 两 指标 之 间 的 相关 系数 也 比较 大 ， 但 是 前 三 个 指标 与 后 三 个 指标 之 





间 的 相关 性 较 小 。 这 说 明 前 三 个 指标 说 明了 一 种 原因 ， 后 三 个 指标 说 明了 另 一 种 
原因 。 前 者 是 水 环境 因素 ， 用 有 i 表示 ; 后 者 是 大 气 环境 因素 ， 用 fs 表示 。 若 用 
zi 表示 第 i 个 指标 值 ， 则 z; 可 以 表示 为 这 两 个 公共 因子 的 线性 组 合 ， 即 : 

Zi=p tan fitaz fatiw (8.1) 
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其 中 ， 户 ， 户 称 为 公共 因子 ， 反 映 了 指标 所 反映 的 公共 因素 ; ai ，az 称 为 因子 
载荷 , 反映 了 第 i 指标 所 反映 的 水 环境 、 大 气 环境 作用 的 大 小 ; wi 称 为 特殊 因 
子 ,是 第 i 指标 所 反映 的 特有 的 原因 ， 这 种 原因 不 能 被 公共 因子 所 反映 ; Ai 是 第 
i 指标 值 的 总 平均 。 记 : 

X=(zx1, za, Xe)', A=(ay)exs 

B=0ns pes pe) F=fi, fa)’ 

U=Q, us, “1)" 
则 式 (8. 1) 可 以 表示 为 : 
X=j+AF+U 

称 其 为 因子 模型 。 更 一 般 地 ， 有 下 述 定义 : 

设 样本 观察 数据 Zz， 由 p 个 变量 构成 ， 即 Z 一 (= ，x。，…，z,)。 样 本 观测 
数据 进行 标准 化 处 理 ， 具 有 均值 0 和 方差 1， 用 X= (zi，z;， zp) 表示 ， 其 
协 方差 矩阵 为 怠 一 (o )。x。。 设 标准 化 后 的 p 个 变量 有 k 个 公共 因子 ， 用 F=( 岂 ， 
户 ，…， 矿 ) 表示 ， 其 中 k<p。 标 准 化 后 的 特殊 因子 用 U== (el ，e@ ，…，ep) 表示 。 
那么 标准 化 后 的 观察 数据 可 以 用 公共 因子 和 特殊 因子 线性 表示 : 

Zi=anfitasfetasfat"" taifrte 
2 二 da 万 十 az 户 十 asx 户 十 … 十 aa 十 ez (8. 2) 





Zp=amfitanfstanfst""t+anfrte, 
则 式 (8. 2) 可 以 表示 为 : 
X=AF+U (8.3) 
其 中 ,A 二 (a )px4 为 常数 矩阵 ，F 为 k 维 向 量 ， 可 以 是 随机 的 也 可 以 是 非 随机 
的 , U 为 p 维 随机 向 量 ; 称 六 为 有 k 个 因子 的 模型 ，F 为 公共 因子 , U 为 特殊 因 
子 ，4 为 因子 载荷 矩阵 。 
当下 是 随机 向 量 时 ， 通 常 假定 
E(F)=0, Cov(F)=L, 
E(U)=0, Cov(tD=diag(#, *…, )=y C8.4) 
Cov(F, DD=0 
满足 式 (8. 3)，(8. 4) 的 因子 模型 称 为 正 交 因子 模型 ， 此 时 下 的 分 量 是 满足 正 
交 条 件 的 。 
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从 上 节 的 正 交 因子 模型 ， 可 以 得 到 : 
=Cov(X)=E(CXX’) 





=E[L(AF+U)(AF+U)’] (8. 5) 
=AE(FF’)A’+E(UU’)=AA’+y 

Cov(X, F)=E(XF’)=E[(AF+UF J]=A (8.6) 

由 式 (8.5) 可 以 得 到 : 
omi 一 DCzD) 一 虹 十 鸣 十 十 力 十 大 (i=1, 2, *…, p) (8.7) 
im 一 Cov(zi，zo) 一 aadm 十 aaa 十 十 aiiank (izxk) (8. 8) 

由 式 (8.6) 可 以 得 到 : 
Cov(Czi， 万 ) 一 oj (i=1, 2, *%, ps; j=1, 2, ,hk) (8.9) 


从 式 (8.7) 可 以 看 出 变量 x; 的 方差 是 由 个 公 因子 和 1 个 特殊 因子 提供 的 ， 
称 w 为 第 7 个 公 因子 对 变量 zx 的 方差 贡献 。 将 吗 十 史 十 … 十 咏 记 为 她 ， 它 表示 
了 上 个 公 因子 对 变量 zz; 的 方差 贡献 总 和 ， 并 称 好 为 第 i 个 变量 的 共同 度 ， 它 刚 
好 是 载荷 矩阵 的 第 i 行 元 素 的 平方 和 ， 而 多 为 特殊 因子 提供 的 方差 ， 称 为 特殊 
度 ， 因 此 式 (8.7) 可 以 改写 为 : 

on 二 D(z)= 民 十 状 (8. 10) 
其 中 ，z; 已 经 标准 化 ， 所 以 mi; 王 D(zi) 一 1。 当 尼 王 1 时， 多 =0， 这 说 明 xz; 能 
被 所 有 公 因 子 的 线性 组 合 表示 ; 当 及 接近 0 时， 表明 公 因 子 对 zi 的 影响 不 大 ， 
此 时 zi 由 特殊 因子 来 描述 ， 由 此 可 以 看 出 及 反映 了 变量 对 公 因 子 依赖 的 程度 。 
另 一 方面 考虑 某 个 指定 的 公 因 子 f; 对 各 个 变量 zj，z，…，zw 的 影响 用 
区 二 a$ 十 a 十 … 十 a (8.11) 
来 描述 ， 它 刚好 是 载荷 矩阵 第 7 列 元 素 的 平方 和 ， 称 中 为 公 因 子 f; 对 所 有 户 个 
变量 的 方差 贡献 。 显 然 g} 越 大 反映 了 公 因 子 f; 对 所 有 变量 的 贡献 越 大 ， 它 可 作 
为 公 因 子 f; 重要 性 的 一 个 度量 。 从 式 (8.9) 可 以 看 出 ， 表示 了 变量 z, 与 公 因 
子 方 的 相关 系数 。 如 果 将 因子 载荷 矩阵 4 的 所 有 g? 都 计算 出 来 ， 使 其 按 大 小 排 
序 ， 就 可 以 依次 提取 最 有 影响 的 公共 因子 。 

从 上 面 的 讨论 ， 可 以 归纳 出 正 交 因子 模型 中 的 载荷 矩阵 4 具有 如 下 的 统计 
意义 : 

(ODD 民 二 oi 十 十 … 十 a ， 为 第 i 个 变量 的 共同 度 ， 它 度量 了 变量 x; 对 人 个 
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公 因 子 的 依赖 程度 。 

(2) 导 一 嘲 十 号 十 … 十 吃 ， 为 第 7 个 公 因 子 f; 对 所 有 变量 的 贡献 ， 它 是 公 
因子 f; 重要 性 的 一 个 度量 。 

(3)aj 是 变量 zx; 与 公 因 子 方 的 相关 系数 ， 它 的 大 小 为 实际 工作 中 解释 公 因 
子 的 含义 提供 了 一 种 依据 。 


由 因子 模型 我 们 知道 ， 用 & 个 公共 因子 和 特殊 因子 来 研究 相关 和 矩阵 的 内 部 依 
赖 结构 或 者 说 相关 关系 的 内 在 原因 ， 从 本 质 上 讲 是 要 建立 统计 模型 (8.3) 和 
(8. 4)， 使 其 满足 方差 结构 (8. 5)， 即 满足 
5E=AA'+y 
如 果 考 虑 建立 因子 模型 ， 第 一 个 要 考虑 的 问题 是 如 何 估计 载荷 矩阵 A 和 特殊 
因子 方差 巡 (i 一 1，2，…， 思 ) 。 目 前 已 经 提出 的 方法 有 许多 ， 如 主 成 分 法 、 极 大 
似 然 法 以 及 主因 子 解 等 方法 ， 在 这 里 我 们 仅 介绍 主 成 分 法 。 
设 马 的 特征 根 为 ;三 jz 过 … 过 hp， 相应 的 特征 向 量 组 成 的 矩阵 为 王 一 
(ee，e，…，ep), 记 及 =diag(Qi，)2，…，)h)， 此 时 可 以 得 到 : 
也 王 PDP' 一 Mieiel 十 hzezez 十 … 十 pepep 
=(VMer, Viaess **, Vhses) VNUes Vers **, VApes) (8. 12) 
=AA’ 
式 (8. 12) 的 分 解 是 公 因 子 个 数 与 变量 个 数 一 样 ， 特 殊 因子 的 方差 为 0 的 因子 
模型 的 方差 结构 形式 ， 即 : 





=AA’ 十 0 二 AA” (8. 13) 

因子 分 析 就 是 要 寻找 少数 几 个 公 因子 来 解释 变量 的 相关 结构 ， 因 此 式 (8. 13) 

的 结构 形式 在 实际 应 用 上 是 无 价值 的 。 类 似 于 主 成 分 分 析 的 思想 ， 如 果 互 的 最 后 

Pp 一 k 个 特征 根 很 小 时 ， 在 式 (8.12) 中 将 Mt eri er 十 Mta ertaet2 十 … 十 

Xpepep 略 去 ， 这 样 我们 就 得 到 : 

BVNe, Vers *, VMe) (VMer, Vhess **, VMer) =AA’ 

(8.14) 

这 里 , A 是 pXk 阶 矩阵 。 式 (8. 14) 近 似 表明 了 因子 模型 ， 式 (8. 3) 中 特殊 因子 是 

不 重要 的 ， 能 从 允 的 分 解 中 忽略 ,如 果 考虑 特殊 因子 , 我们 可 以 用 diag( 隐 一 

AA) 来 估计 w= diag( 好 ， 蜗 ，…， 贤 )。 这 里 A 由 式 (8.14) 定 义 。 此 时 近似 关 
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EVNes VE, “ss VACVNd 人 二 
式 中 : 

y=diag( 毁 ， 毁 ，…， 妃 ),， 姑 ==0i1 一 2 ， 因 此 载荷 矩阵 4 的 估计 为 A 二 
(Ver, VAhzers ***, VMer) 

在 实际 问题 中 马 是 未 知 的， 我 们 用 它 的 协 方差 来 代替 。 但 是 因 各 个 变量 的 量 
纲 不 同 ， 我 们 一 般 将 数据 标准 化 ， 利 用 标准 化 的 数据 计算 出 来 的 样本 协 方差 就 是 


原 数 据 的 相关 系数 矩阵 R， 这 样 我 们 将 上 述 的 方法 用 于 R， 可 以 得 到 近似 于 式 
(8. 15) 的 表示 : 





RAA'ty 
=(/N és NU ws AVEDARB, Vo, i MAE + 
diag( 帝 ， 毁 ，…， 如 ) (8.16) 


其 中 ,各 > 三 Pi，6，6@，…，& 分 别 是 R 的 前 个 较 大 的 特征 根 和 对 应 
的 特征 向 量 。 特 殊 方差 用 diag(R 一 A4) 来 估计 。 因 此 ， 由 R 出 发 的 因子 分 析 
模型 的 载荷 矩阵 的 估计 为 : 


A=GlN a sm Ny (8.17) 
特殊 因子 的 方差 风 的 估计 为 : 
姑 =1 一 ba (这 1，2，…， 力 ) (8.18) 


其 中 ,6&5 为 A 的 (i， 记 元 素 。 

公 因 子 个 数 上 的 确定 仍 按照 主 成 分 的 思想 来 定 ， 比 较 理想 的 情况 是 只 有 少数 
几 个 公 因子 对 变量 的 “贡献 ”很 大 ， 注 意 到 在 标准 化 变量 的 情况 下 ， 所 有 变量 的 
总 方差 为 R 的 迹 ， 即 trCR) 一 户 ， 第 7 个 公 因子 广 的 “贡献 ”为 ， 

















如 一 六 天 =,he VD = (8. 19) 
此 导 找 一 个 使 得 : 
(Disp )x100%>80%( 或 75%) (8. 20) 
就 确定 该 为 公 因 子 数 。 


例 8.2 我 们 仍 用 第 8. 2 节 例 8. 1 的 数据 作为 例子 。 首 先 计算 相关 和 矩阵 的 特 
征 值 和 特征 向 量 ， 它 的 特征 值 及 其 累计 方差 贡献 率 见 表 8. 1。 
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表 8.1 RR 的 特征 值 及 其 累计 方差 贡献 率 
特征 值 2.605 4 1:9711 0.453 3 0.437 5 0.275 6 0.257 1 
累计 方差 贡献 率 /% 43.42 76.27 83. 83 91. 12 95.71 100. 00 


第 三 个 因子 的 方差 贡献 率 相对 于 前 两 个 因子 作用 很 小 ， 前 两 个 因子 的 贡献 率 
已 经 超过 75%， 根 据 式 (8. 20) ， 我 们 选择 前 两 个 因子 作为 公共 因子 。 
根据 式 (8. 17) 得 到 ， 
0.638 4 一 0.644 4 
0.6866 一 0.547 5 
0.6510 一 0.5201 
0.6542 0.5165 
0.6836 0.5508 
0.6383 0.6445 


各 公共 因子 对 z; 的 贡献 ?7， 即 第 i 个 变量 的 共同 度 分 别 为 : 


Mm] [0.8228 
mB| |0.7711 
#3 |_|0.694 3 
居 | |o.6948 
尼 | |0.7707 
让 -0.822 8 


第 个 公 因子 f; 对 所 有 变量 的 贡献 g; 分 别 为 : 
(g: g2)=(2.6054 1.9711) 
由 式 (8. 15) 和 (8. 18) 得 : 
0.1772 0.0000 
0.228 9 
| 0.3057 
ce 0. 305 2 
0.229 3 
0.000 0 0.177 2 


建立 因子 分 析 模 型 的 目的 不 仅 是 找 出 主因 子 ， 更 重要 的 是 知道 每 个 主因 子 的 
明确 意义 ， 以 便 对 实际 问题 进行 深入 分 析 。 然 而 用 上 一 节 介绍 的 方法 求 出 的 主因 
子 解 ， 若 各 主因 子 代表 的 变量 并 不 很 突出 ， 容 易 使 因子 的 意义 含糊 不 清 ， 不 便于 
对 实际 问题 进行 分 析 。 由 线性 代数 知道 ， 一 个 正 交 变换 对 应 坐标 系 的 旋转 ， 而 且 
因子 的 任意 解 均 可 由 上 述 已 求 得 的 A 经 过 旋转 得 到 ， 经 过 旋转 后 ， 公 共 因 子 对 
的 贡献 并 不 改变 ， 但 公共 因子 本 身 可 能 有 较 大 的 变化 ， 即 g; 不 再 与 原来 的 
值 相 同 ， 从 而 可 通过 适当 的 旋转 来 得 到 我 们 比较 满意 的 公共 因子 。 这 种 变换 因子 
载荷 矩阵 的 方法 称 为 因子 旋转 (向 东 进 等 ，2005)。 

对 于 任 一 正 交 阵 P， 由 式 (8.5) 可 以 得 到 : 

5=AA’+y=AP(AP) +y (8. 21) 
另外 由 式 (8. 3) 可 以 得 到 : 
X=AF+U=AP(PF)+U (8. 22) 
E(P'F)=P'E(F)=0 
Cov(PF)=P Cov(F)P=P'1.P=1, 
Cov(P'F, UW=P’'Cov(F, U)=0 (8. 23) 
因此 ， 模 型 (8. 22) 仍 为 正 交 因子 模型 ， 其 载荷 矩阵 为 A4P，P'F 为 新 的 公共 
因子 ， 它 们 是 由 公共 因子 旋转 得 到 。 新 的 公共 因子 的 载荷 矩阵 AP 与 原 公共 因 
子 的 载荷 矩阵 4 满足 同一 个 关系 式 (8. 21)， 这 就 说 明 载荷 因子 矩阵 是 不 唯一 的 。 
这 种 不 唯一 性 初 看 起 来 是 不 利 的 ， 但 是 正 是 这 种 不 唯一 性 可 以 使 我 们 能 够 作 适 当 
的 旋转 ， 使 旋转 后 的 公共 因子 PF 能 够 有 更 明确 的 实际 意义 。 

例如 ， 对 于 上 述 第 8. 4 节 例 8.2， 按照 上 节 方法 所 建立 的 初始 载荷 矩阵 ， 第 
一 个 公共 因子 i 对 每 一 个 变量 的 因子 载荷 值 都 在 0.6 左右， 非常 接近 ， 不 便于 
解释 、 命 名 。 由 其 图 形 (图 8 - 1) 可 直观 地 看 出 ， 如 果 保持 两 因子 轴 的 正 交 关系 ， 
将 它们 按 顺 时 针 方向 旋转 45" 左 右 ， 则 第 一 因子 轴 将 靠近 COD、BOD; 和 NH;， 
而 第 二 因子 轴 则 靠近 TSP、SO。 和 NO.， 这 时 公共 因子 的 意义 更 为 直观 、 明 确 ， 
更 易于 理解 和 命名 。 

旋转 公共 因子 下 的 方法 很 多 ， 这 里 只 介绍 方差 最 大 正 交 旋 转 方 法 。 它 的 基本 
思想 是 旋转 后 的 因子 载荷 矩阵 尽 可 能 向 两 极 分 化 ， 少 数 元 素 取 尽 可 能 大 的 值 ， 而 
其 他 元 素 尽 可 能 接近 于 零 ; 这 样 载荷 接近 于 零 的 因子 对 该 次 实验 影响 不 大 ， 而 载 
荷 较 大 的 因子 应 予以 重视 。 
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图 8-1 坐标 轴 旋 转 图 


4 "一 4P 一 (ai ) (8. 24) 

dy=as /ht (GJ=1, 2, »*» &) (8. 25) 

其 中 , P 为 任 一 k 阶 正 交 和 矩阵 ， 用 o; 除 以 h; 是 一 种 类 似 变量 标准 化 的 手法 ， 是 

为 了 减 小 各 个 变量 对 公共 因子 不 同 程度 依赖 的 影响 。 所 谓 方差 最 大 正 交 旋 转 法 ， 
是 选择 正 交 和 矩阵 已， 使 得 


1 e 第 立 
?一方 总 安 ( 一 直 为) (8. 26) 
达到 最 大 ( 卢 崇 飞 等 ，1988)。 
由 于 才 三 0， 因 此 式 (8. 26) 可 能 使 得 某 些 载荷 接近 于 零 ， 而 另外 一 些 载荷 较 


大 。 当 ==2 时 可 以 准确 地 求 出 P。 
了 可 以 表示 成 : 








P= 人 (2 9 (8.27) 
sin 0 cosb 


只 要 求 出 0 就 可 以 确定 已 。 可 以 证 明 ， 使 得 取 最 大 值 的 旋转 角 9 由 下 式 确定 : 
D 一 HG 
tan 40 一 一 一 马 (8. 28) 
(ce) E 


其 中 : 





2 p 
D=2 By B= FB, B= Ds 
所 1 如 
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2 2 


并 p30 V9), B, 一 ( 扫 ) (E} 2 名, 急 (8.29) 











Mi 
由 式 (8. 28) 可 以 确定 0( 一 般 取 一 下 入 0 和， 从 而 一 rs40<x) ， 按 照 此 角度 


作 正 交 旋 转 ， 便 可 以 使 p 达 到 最 大 。 
可 以 证 明 , 0 的 符号 由 a 的 符号 确定 (具体 的 证 明 过 程 ， 请 参考 相关 的 参考 
已) 


当 a>0, 4ge(0，m, 9€ (0, 玫 ) 


当 a<0, 4gE( 一 x, 0), 9€ (一 至 , 0) 


对 于 >>2 的 情况 ， 我 们 可 以 实行 迭代 旋转 的 方法 ， 即 首先 对 第 一 和 第 二 两 
个 因子 利用 上 述 方法 确定 0 角 进 行 旋转 ， 然 后 对 新 的 第 一 因子 与 原来 的 第 三 因子 


利用 同样 的 方法 确定 旋转 角 进行 旋转 ， 直至 圳 khCk 一 1) 对 因子 都 进行 旋转 完毕 ， 


这 叫做 一 个 旋转 循环 。 随 后 又 重新 开始 同样 的 一 个 旋转 循环 ， 叫 做 第 二 循环 。 这 
样 一 轮 轮 循环 重复 进行 ， 直 至 达到 某 个 事先 给 定 的 收敛 准则 为 止 。 
如 果 我 们 用 w( 王 1，2，…) 表 示 经 过 ;i 轮 循环 旋转 得 到 的 载荷 矩阵 方差 函数 
9 的 值 ， 则 有 pi 寺 g2 夺 …。 
一 般 地 ,我们 可 以 在 wm 值 稳定 到 一 定 程度 停止 运算 。 把 最 后 得 到 的 4 作为 
所 求 的 结果 。 
例 8.3 我 们 仍 用 例 8. 1 的 数据 作为 例子 ， 将 上 节 得 到 的 载荷 矩阵 4 进行 因 
子 旋转 。 
未 对 载荷 矩阵 A 进行 因子 旋转 之 前 ,方差 
9 一 0.0060 
通过 式 (8. 27)、(8. 28) 和 (8. 29)， 得 
0=0.785 3 
即 : tan 40 一 一 2.578 6X10™ 
p= 人 707 2 一 0.707 中 
0.707 1 0.707 2 
为 此 ， 将 上 节 得 到 的 载荷 矩阵 4 进行 因子 旋转 后 得 到 : 
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一 0.004 2 一 0.907 1 
0.0984 一 0.8726 
0.0926 一 0.8281 
0.827 8 一 0.097 3 
0.8729 一 0.093 8 
0.9071 0.0045 
载荷 矩阵 方差 函数 p 一 0. 483 5， 可 见 经 过 因子 旋转 后 ， 方 差 变 大 。 
从 旋转 后 的 载荷 矩阵 4* 的 因子 载荷 可 以 看 出 ， 公 共 因 子 1 ，f 反映 了 指标 
所 反映 的 公共 因素 ,其 中 fi 反映 了 TSP、SO, 和 NO; 三 个 指标 所 表示 的 大 气 环 
境 因 素 ， 户 反映 了 COD、BOD; 和 NH 三 个 指标 所 表示 的 水 环境 因素 。 
因子 旋转 后 ， 各 公共 因子 对 zi 的 贡献 成 ， 即 第 i 个 变量 的 共同 度 不 变 ， 
仍 为 : 


A” 二 AP= 


局 |] 10.8228 
尼 0.771 1 

3| _ |0.6943 
Mm| |0.6948 
居 | |0.7707 
A2) (0.8228 


因子 旋转 后 ,第 j 个 公 因子 f; 对 所 有 变量 的 贡献 Bi 分 别 为 : 
(g1 gz)=(2,2883 2.288 2) 
经 过 因子 旋转 特殊 向 量 方差 y 也 保持 不 变 ， 仍 为 : 
(17 = 0.0000 
0.228 9 
0.3057 
0.305 2 

0.229 3 

0.0000 ;C1772 


到 目前 为 止 , 我 们 已 经 讨论 了 如 何 从 样本 协 方差 矩阵 卫 或 者 相关 和 矩阵 R 来 获 
得 公共 因子 和 因子 载荷 ， 并 且 知道 如 何 通过 因子 旋转 来 确定 公共 因子 的 含义 。 
因子 模型 建立 起 来 后 ， 我 们 应 当 反 过 来 考察 每 一 个 样本 。 例 如 ， 分 析 各 区 域 
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污染 物 成 分 的 因子 模型 建立 之 后 ， 我 们 希望 知道 每 个 区 域 污染 状况 的 轻重 ， 把 各 
区 域 按 污染 的 轻重 划分 归 类 。 要 解决 这 个 问题 ， 在 统计 模型 上 就 需要 将 公共 因子 
用 变量 的 线性 组 合 来 表示 ， 也 即 由 原 评价 指标 值 来 估计 它 的 因子 得 分 。 
设 公 共 因 子 下 由 变量 zx 表示 的 线性 组 合 为 : 
=Pnm tpazst tpyz, JG=1, 2 有 C8. 30) 
上 式 称 为 因子 得 分 函数 ， 由 它 来 计算 每 个 样本 的 公共 因子 得 分 。 如 果 我 们 取 2 个 
公共 因子 ， 这 样 就 可 以 在 二 维 平面 上 作出 因子 得 分 的 散 点 图 ， 进 而 对 样本 进行 分 
类 或 对 问题 作出 更 深入 的 研究 。 下 面 我 们 就 讨论 因子 得 分 的 计算 方法 。 
由 于 式 (8. 30) 中 方程 的 个 数 少 于 变量 的 个 数 ， 因 此 只 能 在 最 小 二 乘 意义 下 对 
因子 得 分 进行 估计 。 
据 多 元 回归 方程 理论 可 知 ， 用 估计 量 方 对 式 (8. 30) 中 的 方 进行 估计 ， 且 和 欲 
求 式 (8. 30) 中 的 B， 应 有 下 列 正则 方程 : 
rupBa tripBzt "trp =Uy 
rapBi trp t+ rz;p = Ly (8.31) 
rmBa triBet "trmpio = Ly 
式 中 忆 (i=1，2，…，p; j 二 1，2，*…， 上) 为 变量 zx; 与 公 因子 f; 的 相关 系数 ， 
因为 各 因子 相互 无 关 ， 所 以 实际 上 4 二 as ， 即 心 是 对 应 因子 载荷 矩阵 4 中 元 
素 。 而 方 是 变量 间 的 相关 系数 矩阵 的 元 素 ， 故 式 (8. 31) 的 解 为 : 


-i 


Bn ry re rp ay 
Bz ra re rap az 
By Tp rpl Top ap 
故 式 (8. 30) 的 解 为 : 
下 一 4R-X (8. 32) 


其 中 ，R 为 原 变量 的 相关 系数 矩阵 。 
P=tfi, fi, any Es 
KX=(z1s Za Zp) 
A’'=(ai)ixp 


当 因 子 正 交 时 ，4 为 旋转 后 的 因子 载荷 矩阵 4 的 转 置 。 


例 8.4 某 地 区 对 城市 大 气 颗粒 物 进 行 监测 。 得 到 16 个 样本 ， 样 本 颗粒 中 各 
类 物质 的 含量 见 表 8. 2( 陈 玉成 等 ，1998)。 下 面 我 们 对 该 监测 数据 进行 因子 分 析 








得 到 相关 结论 。 
表 8.2 样本 中 大 气 颗 粒 物 成 分 分 析 结果 表 单位: mg/kg 
序号 HE K Ba Rb Se Fe Zn Ni V W As 
1 180 11000 820 58 18.0 22000 950 10 274 5.9 60 
2 97 7800 650 39 9.6 1600 930 44 100 6.3 100 
3 120 8600 490 45 82 14000 80 4 107 3.3 72 
4 200 7400 390 31 9%5 13000 150 55 183 10.0 75 
5 20 0 i170 08 估 2 本 
6 42 9100 40 43 61 1400 30 17 93 25 39 
7 60 12000 520 54 10.0 21000 780 45 129 43 49 
8 38 8700 40 41 8.2 16000 680 37 96 49 56 
9 110 540 250 30 46 730 80 39 1 27 63 
10 ‘38 4500 4, 2% 5 6700 101 #0 #0 31 99 
11 10 710 30 29 55 1100 9%0 22 28 53 25 
12 80 4200 ia 15 2 440 80 1 WM 59 站 
13 15 580 240 27 55 1100 650 25 49 49 40 
i 17 8000! ‘200. a: .1 I20003.370% 20 | a8WW 5 30 
15 19 80 290 38 5.8 14000 80 26 40 61 25 
16 ‘13 条 000 2 0 名 7 “7200% 370” 入 37 25 
解 1， 对 观测 数据 进行 标准 化 处 理 ， 然 后 把 标准 化 后 的 数据 用 矩阵 XX 


表示 。 
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1.865 0.147 
0.443 一 0.170 
0.837 一 0.091 
2.208 一 0.210 
一 0.722 一 0.408 
一 0.499 一 0.041 
一 0.191 0.246 
一 0.568 一 0.081 


一 4.568 一 0.457 

0, 495 一 0.239 
—0.191 —0.527 
一 0.962 一 0.368 
一 4.927 一 4.150 
一 0.893 一 0.857 


1.000 





2.266 


1.950 


1.428 0.348 
0.640 0.854 
0.147 —0.327 0.683 0.107 
一 0.543 一 0. 158 —0. 357 一 0.506 一 1.712 


0.640 0.685 一 


0.787 


1.613 


0.34 0.517 
0.666 —0.408 一 0.543 —0.411 一 0.623 一 1.057 
一 0.918 一 1]. 254 一 0. 916 一 1.180 一 0.748 
—0. 001 一 0.495 一 0.383 一 0 301 
一 .135 一 1.676 一 1. 290 一 1.650 
一 0.593 —0, 664 一 0.383 一 0.301 一 0. 220 
一 0.494 0011 一 0.490 一 0.097 一 ].090 

0.346 0.264 一 0303 0.312 
一 0.996 3.614 一 1.677 一 ]. 254 一 0.863 一 1.078 一 1.090 


2， 求 样本 的 相关 矩阵 尺 。 


一 0.160 1.000 
0.589 —0.258 1.000 
0.341 一 0.144 0.871 
0.649 一 0.049 0.899 
0.348 一 0.097 0.880 
0.810 一 0.257 0.392 
0.744 0.122 0.754 
0.655 0.016 0.773 
0.578 一 0.119 0.325 
0.633 一 0.131 0.670 


1.000 
0.831 
0.947 
0.145 
0.639 
0. 698 
0. 124 
0. 431 


2.949 1.96 
0.710 0.720 
0.337 0.312 


0.713 
0.651 
0.309 
2.424 


0.223 0.312 —1.090 


0.816 1.742 


0.185 


0.337 0.720 一 0.126 


1.000 
0.879 1.000 


0.433 


0.74 
0.371 


0.247 


3.191 2.777 
0.331 0.225 
0.374 0.328 
0.807 1.442 
一 0.276 0.050 
一 0.840 0123 
0.374 0651 
0.027 0167 
0.114 一 1.226 
一 0.016 一 0. 508 
一 0.623 —0. 830 
一 0.840 一 0.889 
一 0.493 一 0. 522 
一 0.710 一 0.537 
一 0.450 一 0. 654 
一 0.970 一 0.596 


0.428 0.265 1.000 

0.913 0.653 0.475 1.000 

0.924 0.757 0.380 0.866 1.000 
0.462 0.349 0.792 0.404 0.496 
0.586 0.479 0.564 0.554 0.517 


3. 求 R 的 特征 值 * 及 其 相应 的 特征 向 量 。 
RR 的 特征 值 及 其 累计 方差 贡献 率 ， 见 表 8. 3。 


0.690 0.626 
0.903 2.429 
—0.690 1.166 
2.868 1.302 
一 0.744 —0. 952 
—1.115 —0, 321 
—0.159 0.130 
0.159 0.445 
一 009 0.310 
一 0.797 一 0.321 
0.372 —0, 952 
一 0.372 一 0.952 
0.159 一 0.276 
一 0.584 一 0.727 
0.797 一 0.952 
一 0.478 一 0. 952: 


1.000 
0.446 1.000 
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表 8.3 RR 的 特征 值 及 其 累计 方差 贡献 率 
特征 值 ”6.535 1.818 1.045 0.576 0.538 0.261 0.116 0.067 0.035 0.005 0.004 
累计 方差 


59.41 75.94 85.43 90.67 95.56 97.94 98.99 99.60 99.92 99.97 100.00 
贡献 率 /% 


可 以 看 出 前 三 个 特征 根 的 累计 方差 贡献 率 已 超过 85%， 因 此 我 们 选择 三 个 
公共 因子 就 可 以 了 。 它 们 对 应 的 特征 向 量 分 别 为 : 
=(0.303, —0.072, 0.358, 0.307, 0.376, 0.328, 0.241, 0.347, 0.349, 0,227, 0.282) 
@2=(—0, 349, 0. 153, 0. 185, 0. 403, 0. 154, 0.315, —0. 540, 0.027, 0.105, —0,451, —0, 170) 
. @=(0.086, 0,918, —0. 180, —0. 148, 0.108, —0.058, —0.030, 0.095, 0.225, 0,140, —0.026) 
4. 求 因子 载荷 矩阵 A。 
根据 式 (8. 17)， 得 : 
0.7746 一 0.4703 0.0878 
一 0.1838 0.2068 0.9381 
0.9145 0.2492 一 0.184 4 
0.7847 0.5427 一 0.1512 
0.9602 0.2076 0.1105 
A=(VNe Vhse: Vhses)=| 0.8395， 0.4252 一 0.059 6 
0.6157 一 0.7279 一 0.031 4 
0.8881 0.0365 0.0967 
0.8934 0.1410 0.2299 
0.5802 一 0.6082 0.1434 
0.7210 一 0.2290 一 0.0270 
0.828 9 
0.956 5 
0.932 4 
0.933 2 
0.977 3 
共同 度 ， h= |0. 889 1 
0.9100 
0.799 4 
0.8710 
次 727 工 
0.573 0 
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各 个 公 因子 f; 对 所 有 变量 的 贡献 g 二 (6.535 1 1.8179 1.044 8)。 
5。 对 因子 载荷 矩阵 A 作 正 交 旋 转 。 
运用 公式 (8. 23) 一 (8. 29) 对 载荷 矩阵 4 作 正 交 旋 转 ， 经 过 四 轮 循环 后 g 变化 
很 小 ， 正 交 循 环 过 程 结束 。A4 未 进行 旋转 时 go 二 0. 182 5。 具 体 旋 转 过 程 如 下 : 
(1) 第 一 轮 循环 过 程 如 下 : 
@ 对 4 的 第 1，2 列 进 行 如 下 旋转 ， 取 : 
0=0.597 0 
0.827 0 一 0.562 1) 
0.5621 0.8270 
0.3763 一 0.8244 0.0878 
一 0.0358 0.2743 0.9381 
0.8964 一 0.3080 一 0.1844 
0.9541 0.0077 一 0.1512 
0.9108 一 0.3680 0.1105 
AP=| 0.9333 一 0.1203 一 0.0596 
.1000 一 0.9481 一 0.0314 
.7550 一 0.4690 0.0967 
.818 2 一 0.3856 0.2299 
,1380 一 0.8291 0.1434 
0.4676 一 0.5947 一 0.027 0 
四 对 4 的 第 1，3 列 进行 如 下 旋转 ， 取 : 
0=—0.010 9 
0.999 9 0.010 让 
一 0.0109 0.9999 


则 P=( 








则 P= ( 


0.3753 一 0.8244 
一 0.046 1 0.2743 
8984 一 0.3080 
955 7 0.0077 
9096 一 0.3680 
9339 一 0.120 3 
1004 一 0.948 1 
7539 一 0.4690 
8156 一 0.3856 
136 4 一 0.829 1 
0.4678 一 0.5947 
@ 对 A 的 第 2，3 列 进行 如 下 旋转 ， 取 : 

一 一 0.155 6 

0.987 9 0.154 3 
一 0.1549 0.987 9 

0.375 3 一 0.828 7 
一 0.046 1 0.125 7 

0.898 4 一 0.277 2 

0.955 7 0.029 5 

0.9096 一 0.382 2 
AP=| ,0.9339 一 0.1112 
0.1004 一 0.9320 
0.7539 一 0.4796 
0.8156 一 0.4179 
0.136 4 一 0.8416 
0.467 8 一 0.584 1 


I 
cePpPpPpePpe 





则 P=( 





.174 6 
.140 8 
.120 5 


.030 3 


.021 9 


.036 9 
.220 2 
.062 0 


.067 4 
.176 8 


.1137 
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091 9 
937 6 


049 4 


104 9 
238 8 
144 9 





968 8 


137 9 


031 0 
176 2 
0147 





经 过 第 一 轮 循 环 后 ，4 经 正 交 旋转 得 到 A? ， 因 子 载荷 矩阵 各 列 的 方差 为 ; 





站 一 0. 366 1 
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0.375 3 一 0.828 7 一 0.036 9 
一 0.046 1 0.125 7 0.968 8 
8984 一 0.2772 一 0.220 2 
955 7 0.029 5 一 0.137 9 
909 6 一 0.3822 0.062 0 
933 9 0.111 2 0.067 4 
1004 一 0.9320 一 0.0176 8 
753 9 一 0.479 6 0.0310 
8156 一 0.417 9 0. 176 2 
136 4 一 0.8416 0.014 7 
0.467 8 一 0.584 1 -17 
共同 度 不 变 。 各 个 公 因子 /; 对 所 有 变量 的 贡献 g=(5.044 0 3.261 5 1.092 3)。 

(2) 与 第 一 轮 循环 类 似 ， 经 过 第 二 轮 循环 后 ，A 经 正 交 旋转 得 到 4; ， 因 子 载 
荷 矩阵 各 列 的 方差 为 ; 








人 








p=0. 366 3 
0.3678 一 0.8321 一 0.033 8 
一 0.0568 0.1245 0.9684 
0.898 3 一 0.2854 一 0.2097 
0.9575 0.0206 一 0.1261 
0.9051 一 0.3910 0.0725 
0.9336 一 0.1199 一 0.0562 
0.0937 一 0.932 6 一 0.177 3 
0.7489 一 0.4868 0.0394 
0.8094 一 0.4260 0.1854 
0.128 2 一 0.8429 0.0148 
0.463 6 一 0.588 4 一 0.109 1 
共同 度 不 变 。 各 个 公 因子 fi 对 所 有 变量 的 贡献 8 一 (5. 009 2 3.3018 1.086 7)。 
(3) 经 过 第 三 轮 循环 后 ，4 经 正 交 旋转 得 到 4; ， 因 子 载荷 矩阵 各 列 的 方 
差 为 : 








P=0. 366 3 


0. 366 8 
一 0.056 9 
0.898 0 
0.957 6 
0.904 5 
如一 | 0.933'5 
0.0926 
0.748 2 
0.808 8 
0.1272 
0.462 9 





一 0. 832 6 

0.124 4 
一 0. 286 5 

0.019 4 
一 0.392 2 
=01211 
一 0.932 7 
一 0.487 8 
一 0. 427 0 
一 0. 843 0 
一 0.588 9 


一 0. 
共同 度 不 变 。 各 个 公 因 子 f; 对 所 有 变量 的 贡献 g 一 (5.003 7 3. 307 4 
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0338 
0.968 4 
.209 4 
1258 
0.0727 
.055 9 
177 4 
0.039 5 
0.185 6 
0.014 8 
109 0 





1. 086 6)。 


由 于 第 二 轮 循环 与 第 三 轮 循 环 后 ， 因 子 载荷 矩阵 各 列 的 方差 变化 很 小 ， 所 以 此 时 停 


止 计算 。 


从 旋转 后 的 因子 载荷 矩阵 可 以 看 出 该 城市 的 大 气 颗 粒 来 源 主要 来 自 三 个 因 
素 : 第 一 因素 由 Ba、Rb、Sc、Fe、Ni、V 构成 ， 它 反映 了 燃油 的 作用 ; 第 二 因 
素 由 Br、Zn、W、As 构成 ， 它 反映 了 燃 煤 效应 ; 第 三 因素 由 构成 ， 它 主要 是 
风沙 尘土 的 结果 。 因 此 用 因子 分 析 方法 ， 可 以 较 好 地 找 出 当地 大 气 粉 尘 污 染 的 主 


要 污染 源 。 
6。 求 因子 得 分 。 
(1) 求 特殊 向 量 方差 y。 
0.1711 
0.0435 
0.0676 
0.0668 





0.0000 


0.0227 


0.1109 
0.0900 


0.0000 


0.2006 
0.1291 
0.2729 
0.4270 





(2) 运用 式 (8. 30)， 得 到 因子 得 分 了 ， 结 果 见 表 8. 4。 
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表 8.4 因子 得 分 表 
因子 得 分 
样本 序号 
fn fi fi 
人 L 2.5182 一 0.781 9 0.720 5 
2 0.568 3 一 0.861 5 一 0.387 6 
3 0.6047 一 0.106 9 一 0.262 1 
4 一 0.396 5 一 么 9057 0.302 9 
5 一 0.0057 1.162 1 一 0 177 9 
6 0.580 7 1.256 5 一 0.287 5 
学 1.314 3 0.529 0 0.083 2 
8 0.507 8 0.288 0 一 0.152 0 
9 一 0.737 8 一 0.235 3 一 0.642 6 
10 一 0.829 7 0.366 0 一 0. 303 4 
11 一 0.683 6 一 0.432 8 一 0.401 8 
12 577 ,9 一 0.274 3 一 0.487 8 
13 一 人 527 6 0.223 8 一 0. 341 4 
14 一 0.1096 1.040 3 —0. 228 6 
15 一 0.252 4 0.2127 一 0.9146 
16 一 0.973 4 0.520 0 3.4808 





例 8.5 ”为 了 全 面 系统 地 分 析 评价 地 表 水 质量 ， 往 往 要 考虑 众多 对 水 质 有 影 
响 的 因素 ， 结 合 当地 的 地 表 水 环境 质量 特点 ， 选 取 pHCX1)、 五 日 生化 耗 氧 量 
BOD,(X:) 、 化 学 耗 氧 量 COD(Xs:) 、 阴 离子 洗涤 剂 (X,)、 非 离子 氨 (Xs)、 溶 解 
氧 DO(CXs)、 总 磷 (X;)、 总 铅 (Xs)、 总 锌 (Xs)、 石 油 类 (Xio) 指 标 作为 监测 分 析 
项 目 。 得 到 6 个 样本 ， 监 测 数据 及 统计 结果 详 见 表 8. 5， 试 用 因子 分 析 方法 对 该 
地 的 水 质 状 况 进行 分 析 。 
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表 8.5 某 地 区 地 表 水 水 质 监测 统计 结果 单位 : mg/L(pH 除外 ) 
样本 项 目 名 称 
编号 xX xX Xs X, Xs Xs 六 Xs XX 
1 7.29 401 15.7 0.104 0.0195 5.62 0.097 0.0081 0.18 0.05 











2 7.16 6.83 19.9 0.219 0.0719 2.34 0.118 0.0081 0.08 0.06 
3 7.19 6.00 15.5 0.063 0.0165 5.72 0.103 0.0068 0.15 0.08 
4 7.23 5.83 18.6 0.147 0.0556 3.89 0.111 0.0074 0.44 0.06 
5 7.19 4.40 16.3 0.066 0.0285 3.49 0.122 0.0081 0.24 0.10 
6 7.01 9.38 24.3 0.236 0.0324 1.29 0.154 0.0068 0.20 0.12 





解 1， 对 观测 数据 进行 标准 化 处 理 ， 然 后 把 标准 化 后 的 数据 用 和 矩阵 六 
表示 。 
1.18 —1.070 一 0.793 一 0.468 一 0.820 1.076 一 09 0858 一 0285 —1,044 
—0.195 039 0.448 1.063 1.580 一 0787 0.025 0.858 一 101 一 0.675 
0.124 一 0.039 一 0.852 一 014 一 0.957 1133 一 0720 一 ].170 一 0530 0.06l 


2 0.550 —0,127 0064 0104 0.834 0094 一 0323 一 0234 1835 一 0.675 
0.124 一 0.868 一 0616 一 0974 一 0408 —0.133 0.224 0.858 0.204 0.798 
—1.793 1712 1749 128 —0.229 —1.383 1.814 一 ].170 一 0122 1.535 

2.， 求 样本 的 相关 矩阵 R。 
1.000 一 0.920 一 0.863 一 0653 —0.117 0.818 —0.941 0.557 0,213 一 0.825 
—0.920 1.000 0.916 0.799 0.278 —0.753 0.816 —0.651 —0.145 0,574 
—0.863 0.916 100 095 0.416 —0.901 088 —0.378 一 0007 0525 
—0.653 0799 0.915 1.000 0.645 一 0.826 0.664 一 0.134 一 0.133 0.168 
全 -017 0.278 046 0.645 1.000 —0.552 0.158 0.299 009 一 0.302 


0.818 —0.753 —0.901 —0.826 一 0552 1.000 —0.900 0.081 0.054 一 0.563 
—0,941 0816 0.889 0664 0158 一 090 1.000 —0.373 —0.025 0.837 
0.557 —0.651 —0.378 —0.134 0.29 0.081 一 0.373 1.000 —0.136 —0,500 
0.213 —0.145 0.007 —0.133 0.095 0,054 —0.025 —0.136 1.000 一 0.051 
—0.825 0.574 0.525 0.168 —0.302 —0.563 0.837 一 050 —0.051 1.000 
3. 求 R 的 特征 值 * 及 其 相应 的 特征 向 量 。 
R 的 特征 值 及 其 累计 方差 贡献 率 ， 见 表 8. 6。 
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表 8.6 特征 值 及 其 累计 方差 贡献 率 
特征 值 5. 952 4 1.9797 1.0900 0.7656 0.212 3 
累计 方差 贡献 率 /% 59.52 79,32 90. 22 97. 88 100.00 


从 计算 结果 可 看 出 ， 原 变量 的 方差 在 新 变量 中 的 集中 度 很 高 ， 前 三 个 因子 其 
方差 的 累计 贡献 率 已 达到 所 有 因子 方差 的 90. 22%， 于 是 可 以 用 这 三 个 因子 来 反 
映 原 始 数据 的 基本 信息 。 其 中 第 一 主因 子 的 贡献 率 为 59. 52%， 基 本 反映 了 某 地 
区 的 水 质 状况 和 污染 情况 ， 而 第 二 和 第 三 主因 子 的 贡献 率 分 别 为 19. 80% 和 
10. 90%。 因 此 ， 可 以 认为 这 三 个 新 变量 能 够 完全 反映 变量 的 变化 所 代表 的 水 质 
状况 。 

它们 对 应 的 特征 向 量 : 

一 0.394 一 0.163 一 0.116 
.388 ”0.047 一 0.012 
.396 一 0.115 一 0.084 
335 一 0.352 0.026 
132 一 0.624 一 0.150 
一 0.373 ”0.214 一 0.024 
.389 。 0.093 一 0.005 
一 0.189 一 0.457 0.292 
一 0.039 一 0.004 一 0.931 
0.283 0.425 0.054 


(@ @ @)= 








4. 求 因子 载荷 矩阵 A。 

根据 式 (8. 17) : 

=0.961 ~—0.230 =0.122 
0.946 -0.067 一 0.013 
0.965 一 0.161 一 0.088 
0.817 一 0.496 0.027 
0.323 一 0.879 一 0.156 
一 0.910 ”0.301 一 0.025 
0.949 ”0.131 一 0.006 
—0.462 —0.642 0.305 
一 0.095 一 0.005 一 0.972 
0.692 0.599 ”0.057 


4 一 (Vhel VAhzer Vhses)= 
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991 4 
898 9 
965 1 
9147 
900 6 
920 0 
9181 
719 2 
954 4 
0.839 7 
各 个 公 因子 f; 对 所 有 变量 的 贡献 8 一 (5.952 4 1.9797 1.090 0)。 

从 因子 载荷 矩阵 可 以 看 出 该 城市 的 水 质 污染 来 源 主要 来 自 三 个 因素 。 第 一 因 
素 由 pH(X1)、 五 日 生化 耗 氧 量 BOD; (X: ) 、 化 学 耗 氧 量 CODCXs)、 阴 离子 洗涤 
剂 (X,)、 溶 解 氧 DOCXs)、 总 磷 (X?)、 石 油 类 (Xio) 构成 ， 它 反映 了 水 体 受 到 有 
机 污染 物 污染 、 生 活 污水 污染 及 上 游 农业 生产 污染 的 作用 ; 第 二 因素 由 非 离子 氨 
(CX;)、 总 铅 (Xs) 构 成 ， 它 反映 了 重金 属 及 有 机 污染 物 污染 的 效应 ; 第 三 因素 由 
总 锌 (Xs) 构 成 ， 它 主要 是 无 机 污染 物 污染 的 结果 。 因 此 用 因子 分 析 方 法 ， 可 以 


共同 度 ， h= 


PPPPPPoPes 














较 好 地 找 出 当地 水 质 污染 的 主要 污染 源 。 
5， 求 因子 得 分 。 
运用 式 (8. 30)， 得 到 因子 得 分 下 ， 结 果 见 表 8. 7。 
表 8.7 因子 得 分 表 
编导 n fz fs 

1 —4.3057 0.6292 0.597 5 
2 一 2.6816 —1.894 1 0.6537 
3 2.1002 1.5205 0.661 8 
4 一 3.3497 一 0.9675 一 2.165 4 
§ 3.3538 一 0.090 4 0.330 2 
6 4.883 0 ~ 0.8023 一 0.077 9 
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【思考 题 8】 


1. 试 述 因子 分 析 的 基本 思想 。 

2， 比 较 因子 分 析 和 主 成 分 分 析 模 型 的 关系 ， 说 明 其 异同 点 。 

3， 为 较 全 面 评价 分 析 我 国 2003 一 2004 年 各 地 区 循环 经 济 发 展 水 平 ， 根 据 我国 地 理 位 置 
特征 和 区 域 经 济 发 展 状况 ， 在 东部 、 中 部 和 西部 地 区 各 选取 3 个 省 份 作 为 评价 对 象 ， 分 别 为 
北京 、 上海、 广东 、 山 西 、 安 徽 、 湖 北 、 重 庆 、 内 蒙古 和 甘肃 。 同 时 ， 为 了 与 全 国平 均 水 平 
作 比 较 ， 也 将 “全 国平 均 ”作为 一 个 评价 对 象 ， 具 体 见 表 8. 8。 试 用 R 型 因子 分 析 方法 对 各 地 
区 循环 经 济 发 展 情况 进行 分 类 。 

(1) 求 样本 的 相关 矩阵 R; 

(2) 求 R 的 特征 值 及 其 累计 方差 贡献 率 ; | 

(3) 求 因子 载荷 和 矩阵、 共同 度 及 各 个 公 因子 fi 对 所 有 变量 的 贡献 ; 

(4) 求 因子 得 分 ， 并 进行 分 析 。 


表 8.8 各 省 份 循环 经 济 发 展 情况 
= "三废 ”综合 
间 位 GDP 能 算 万 元 GDP 用 单位 面积 上 地 “和 用 产品 产 环境 污染 治 


省 份 水 量 /(m 呈 。 GDP 产 出 / 理 投 资 占 





( 吨 标 煤 ”10 元 Cot 元 -0 ot 元 km?) 人 GDP 比例 /多 

北京 1.29 80.78 2 610.02 0.37 1.53 
上 海 1.07 158. 52 9 042. 69 0.22 0.94 
广东 0. 96 289. 79 892. 29 0.38 0.70 
山西 4.23 183. 74 194. 14 0.83 1.48 
安徽 1.47 435. 72 343. 45 0.67 0. 86 
湖北 1.42 384. 63 339. 45 1.45 0.71 
重庆 1.32 253. 25 323. 98 0.54 1.81 
内 蒙古 2.43 632. 36 23. 68 0.61 1.63 
甘肃 2.70 781. 31 38. 58 0.76 1.06 
全 国平 均 1.43 405. 32 143. 98 0. 64 1.40 








数据 来 源 : 中 国 统计 年 鉴 、 能 源 统 计 年 鉴 和 环境 统计 年 鉴 。 


4。 某 化 工厂 在 附近 地 区 挑选 有 代表 性 的 8 个 大 气 取样 点 ， 测 定 其 中 6 种 气体 的 浓度 。 具 
体 数据 见 表 4. 14， 试 用 R 型 因子 分 析 方法 对 当地 大 气 的 污染 源 进行 分 析 。 
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《1) 求 样本 的 相关 矩阵 R; 
(2) 求 R 的 特征 值 及 其 累计 方差 贡献 率 ; 
(3) 求 因子 载荷 矩阵 、 共 同 度 及 各 个 公 因子 万 对 所 有 变量 的 贡献 ， 
(4) 问 经 过 多 少 轮 旋转 后 ， 可 以 较 好 地 对 当地 大 气 的 污染 源 进行 分 析 。 
5, 表 4.7 给 出 了 某 地 区 九 个 农业 区 的 七 项 指标 ,试用 RR 型 因子 分 析 方 法 对 该 地 区 九 个 农 
业 区 进行 分 类 评价 。 
《1) 求 样本 的 相关 矩阵 R; 
(2) 求 R 的 特征 值 及 其 累计 方差 贡献 率 ; 
(3) 解 释 各 公 因 子 所 代表 的 意义 ; 
(4) 求 因子 得 分 ， 并 进行 分 类 评价 。 
6， 找 一 环境 问题 ， 建 立 因子 分 析 模 型 ， 并 对 环境 问题 进行 解释 。 
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第 9 章 人 工 神经 网 络 


一 元 线性 回归 、 多 元 线性 回归 等 传统 统计 分 析 方法 ， 虽 然 可 以 解决 一 些 预 测 
问题 ， 但 由 于 它们 都 要 求 数据 满足 正 态 性 、 独 立 性 等 条 件 ， 因 而 应 用 起 来 受到 限 
制 。 受 人 类 活动 、 气 候 、 气 象 等 众多 因素 的 影响 ， 环 境 过 程 往往 是 高 度 复杂 的 非 
线性 过 程 ， 其 中 存在 着 大 量 非 线 性 预测 、 系 统 识别 、 仿 真 等 复杂 问题 。 对 于 这 些 
复杂 问题 ， 如 用 传统 的 统计 方法 则 存在 着 数据 不 完备 ， 难 以 选择 模型 的 问题 。 人 
工 神经 网 络 (artificial neural network，ANN) 是 一 门 新 兴 的 学 科 ， 从 20 世纪 40 
年 代 提出 基本 概念 以 来 得 到 了 迅速 的 发 展 ， 以 其 具有 大 规模 并 行 处 理 能 力 、 自 适 
应 性 能 力 以 及 适合 于 求解 非 线 性 、 窜 错 性 和 宛 余 性 等 数据 处 理 问题 而 引起 众多 领 
域 科学 家 的 广泛 关注 ， 现 在 已 经 成 为 计算 统计 学 的 一 个 分 支 。 当 传统 统计 假设 条 
件 不 满足 时 ， 可 以 采用 人 工 神经 网 络 方法 ， 对 数据 进行 处 理 和 预测 。 本 章 重 点 并 
述 人 工 神经 网 络 的 基本 概念 以 及 常用 的 几 个 人 工 神 经 网 络 模型 。 

本 章 的 主要 内 容 是 
人 工 神经 网 络 概述 ; 

人 工 神经 元 模型 ， 
BP 神经 网 络 ; 
RBF 神经 网 络 ; 
环境 应 用 。 


人 脑 神经 系统 的 基本 单元 是 神经 细胞 ， 即 生物 神经 元 。 人 脑 神经 系统 大 约 有 
10" 个 神经 细胞 ， 每 个 细胞 约 有 10' 个 通路 与 其 他 细胞 相连 ， 并 且 通 过 突 触 (一 个 
神经 细胞 和 另 一 个 神经 细胞 相 联系 的 结构 部 分 ) 交 换 信息 ， 整 个 大 脑 构成 了 一 个 
纵横 交错 的 、 极 其 复杂 的 非 线性 网 络 结构 。 人 工 神经 网 络 正 是 在 人 类 对 其 大 脑 社 
经 网 络 认识 理解 的 基础 上 ， 人 工 构造 的 能 够 实现 某 种 功能 的 网 络 系统 。ANN 并 
不 是 人 脑 神经 网 络 系统 的 真实 写照 ， 而 是 对 其 作 简 化 、 抽 象 和 模拟 ， 是 大 脑 生 物 
结构 的 数学 模型 。ANN 由 大 量 功能 简单 且 具 有 自 适应 能 力 的 信息 处 理 单元 一 一 
人 工 神 经 元 (以 下 简称 为 神经 元 ) 按 照 大 规模 并 行 方式 ， 通 过 一 定 的 拓扑 结构 连接 
而 成 。 一 个 人 工 神经 网 络 的 神经 元 模型 和 结构 描述 了 一 个 网 络 的 输入 向 量 转化 为 
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输出 向 量 的 过 程 。 这 个 转化 过 程 从 数学 的 角度 来 看 就 是 一 个 计算 过 程 ( 杨 晓 华 等 ， 
2005; 从 亚 ，2003)。 

人 工 神经 网 络 的 发 展 大 约 经 历 了 半 个 世纪 。 一 般 认为 ， 最 早 用 数学 模型 对 神 
经 系统 中 的 神经 元 进行 理论 建 模 的 是 美国 神经 生物 学 家 麦 卡 洛克 (W. McCulloch) 
和 数学 家 皮 蒋 (W. Pitts)。1943 年 ， 他 们 合作 提出 了 兴奋 与 抑制 型 神经 元 模型 ， 
合 写 了 名 为 A Logical Calculus Folders Immanent Nervous Actiuity 的 开拓 性 文 
章 , 提出 了 MP 模型 ， 首 次 用 简单 的 数学 模型 模仿 出 生物 神经 元 的 活动 功能 。 
1957 年 ， 美 国 计 算 机 学 家 罗 森 布 拉 特 (F. Rosenblatt) 提 出 了 著名 的 感知 器 (per- 
ception) 模 型 。 它 是 一 个 具有 连续 可 调 权 值 矢量 的 MP 模型 ， 经 过 训练 可 以 达到 
对 一 定 的 输入 矢量 模式 进行 分 类 和 识别 的 目的 。1959 年 ， 美 国 工程 师 威 德 罗 
(B. Widrow) 和 和 霍 夫 (M. Hoff) 开 发 出 自 适 应 线性 单元 (adaline) 的 网 络 模型 ， 第 一 
次 把 神经 网 络 研究 从 纯 理 论 的 研究 付 诸 工 程 应 用 ， 掀 起 了 神经 网 络 研究 的 第 一 次 
高 潮 。1969 年 ， 美 国 麻 省 理工 学 院 著名 的 人 工 智能 专家 ， 人 工 智 能 创始 人 之 一 
明 斯 基 (M. Minsky) 和 帕 伯 特 (S. Papert) 在 合 著 的 Perception 书 中 指出 了 简单 感 
知 器 的 严重 局 限 性 ， 再 加 上 当时 基于 语言 智能 和 逻辑 数学 智能 的 人 工 智能 很 热 ， 
导致 人 工 神经 网 络 研究 陷于 低潮 。 美 国 加 州 理 工学 院 物理 学 家 和 坎 普 菲尔德 
(J. Hopfield) 对 人 工 神经 网 络 研究 的 复苏 起 到 了 关键 的 作用 。1982 年 ， 他 提出 了 
Hopfield 网 络 模型 ， 将 能 量 函 数 引 入 到 对 称 反馈 网 络 中 ， 使 网 络 的 稳定 性 有 了 明 
确 的 判 据 ， 并 利用 所 建立 的 网 络 的 神经 计算 能 力 来 解决 条 件 优 化 问题 。 另 一 个 突 
破 性 的 研究 成 果 是 儒 默 哈 特 (D. Rumelhart) 等 人 在 1986 年 提出 的 解决 多 层 神经 
网 络 权 值 修正 的 算法 一 一 误差 反 向 传播 算法 ( error back-propagation algorithm， 
简称 BP 算法 ) ， 解 决 了 明 斯 基 提出 的 多 层 网 络 的 设想 问题 ， 使 ANN 得 以 全 面 迅 
速 地 恢复 发 展 起 来 。 

人 工 神经 网 络 的 研究 和 发 展 经 历 了 几 起 几 伏 。 它 的 研究 大 体 上 分 为 4 个 阶段 
( 闻 新 等 ，2003， 飞 思科 技 产品 研发 中 心 ，2003)。 表 9. 1 总 结 了 这 几 个 阶段 的 主 
要 特点 。 
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表 9.1 人 工 神经 网 络 发 展 的 几 个 阶段 
阶段 时 间 / 年 ”代表 人 物 /会 议 主要 贡献 
K 1800 Frued 在 精神 分 析 学 方面 ， 作 了 一 些 初步 的 工作 
. 1913 Russell 人 工 神经 网 络 系统 的 第 一 个 实践 “水 力 装置 ” 
1943 W.MeCulloch 和 W. Pitts 提出 了 MP 模型 
1948 Wiener 提出 了 伺服 机 反馈 自 稳定 系统 的 概念 
1949 心理 学 家 DO Hebb 在 The Organization of Behavior 书 中 提出 了 
著名 的 Hebb 学 习 规则 
1957  F.Rosenblatt 提出 了 感知 器 (perception) 模 型 
1959  B.Widrow 和 M .Hoff 开发 出 自 适应 线性 单元 (adaline) 的 网 络 模型 ， 
里 第 一 次 把 神经 网 络 研 究 从 纯 理论 的 研究 付 诸 
期 工程 应 用 ， 掀 起 了 神经 网 络 研究 的 第 一 次 
阶 高 潮 
段 1961 Caianiello 发 表 了 神经 网 络 数学 的 理论 著作 ， 研 究 了 细 
胞 有 限 自动 机 的 理论 模型 
1969  M.Minsky 和 S. Papert 在 合 著 的 Perceprion 书 中 指出 了 简单 感知 器 的 
严重 局 限 性 ， 再 加 上 当时 基于 语言 智能 和 退 
辑 数学 智能 的 人 工 智能 很 热 ， 导 致 人 工 神经 
网 络 研究 陷于 低潮 
过 1972 T. Kohonen 提出 了 联想 记忆 理论 
渡 1973 J. Adgerson 把 线性 联想 记忆 (LAMD) 应 用 到 识别 、 重 构 和 
阶 ”一 1977 任意 可 视 模式 的 联想 问题 上 
段 1977 Adgerson, Silvetstein 建立 了 BSBCbrain-state-in-a-box) 模 型 
1982 美国 加 州 理工 学 院 物 理学 ”提出 了 离散 的 神经 网 络 模 型 ， 标 志 着 人 工 神 
家 本 Hopfield 经 网 络 研究 高 潮 的 又 一 次 到 来 
守 1984 J. Hopfield 又 提出 了 连续 神经 网 络 模型 
潮 ”1986 M. Rumelhart 提出 反 向 传播 学 习 算法 (back-propagation algo- 
rithm, 简称 BP 算法 ) 
段 1987 在 美国 Snowbirds 召开 了 第 自 此 以 后 ,各 国 对 神经 网 络 的 理论 和 应 用 研 
一 次 国际 神经 网 络 会 议 究 迅速 发 展 起 来 
1990 IBM 公 司 推出 了 AS400 工作 站 ,提供 了 一 个 自由 的 神 
经 网 络 仿真 开发 环境 





ANN 模型 有 多 种 形式 ， 它 取决 于 网 络 拓扑 结构 、 神 经 元 传递 函数 、 学 习 算 
法 三 大 要 素 。ANN 具有 以 下 显著 的 特点 : 
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(1) 大 规模 并 行 计 算 和 分 布 式 存储 能 力 。 信 息 以 分 布 方式 存储 于 整个 网 络 
中 ， 即 使 网 络 局 部 受 损 ， 也 不 会 对 整个 网 络 造成 很 大 影响 ， 还 可 根据 不 完整 或 模 
糊 的 信息 联想 出 完整 的 信息 。 从 而 得 到 正确 的 输出 。ANN 具有 并 行 处 理 特征 ， 
信息 处 理 是 在 大 量 单元 中 并 行 而 有 层次 地 进行 的 ， 因 此 运算 速度 极 快 。 由 于 其 信 
息 处 理 能 力 是 由 整个 网 络 决定 的 ， 所 以 具有 较 强 的 鲁 棒 性 。 

(2) 非 线性 映射 能 力 。ANN 各 神经 元 具有 非 线性 映射 特征 。 虽 然 ANN 各 神 
经 元 的 结构 和 功能 简单 ， 但 由 大 量 神经 元 构成 的 网 络 系统 的 行为 却 是 丰富 多 彩 和 
十 分 复杂 的 。ANN 是 一 个 高 度 复杂 的 非 线性 动力 系统 ， 具 有 很 强 的 非 线性 处 理 
能 力 。 

(3) 自 适应 、 自 组 织 、 自 学 习 、 联 想 、 容 错 能 力 。ANN 可 以 通过 对 信息 的 有 
监督 和 无 监督 学 习 ， 调 整 自身 的 结构 。 可 以 处 理 各 种 变化 的 信息 ， 在 处 理 信息 的 
同时 非 线性 系统 本 身 也 在 不 断 变化 。ANN 可 通过 训练 样本 ， 根 据 周围 环境 来 改 
变 自己 的 网 络 ， 可 以 处 理 一 些 环境 信息 十 分 复杂 ， 背 景 知识 不 清楚 ， 推 理 规则 不 
明确 的 问题 ， 如 语言 、 模 糊 推理 、 文 字 识 别 、 医 学 诊断 等 。 

人 工 神经 网 络 根据 网 络 结构 、 状 态 、 学 习 方式 以 及 系统 特点 的 不 同 ， 可 分 为 
以 下 几 类 ， 

前 馈 网 络 (feedforward network, 如 BP 网 络 ) 

结构 方 式 ( 三 全 网 络 Cfecabo ck network, 如 Hopfield 网 络 ) 
离散 型 网 络 (如 离散 型 Hopfield 网 络 ) 
连续 型 网 络 (如 连续 型 Hopfield 网 络 ) 

有 监督 学 习 网 络 (如 BP,RBF 网 络 ) 
@ 学 习 方式 | 天 监督 学 习 网 络 (如 自 级 织 网 络 
人 工 神经 网 络 的 详细 分 类 详 见 有 关 的 参考 文献 。 
本 章 重点 给 出 BP 人 工 神经 网 络 和 RBF 人 工 神经 网 络 的 原理 及 应 用 。 


人 工 神经 元 是 人 工 神经 网 络 的 基本 单元 。 在 利用 人 工 神经 网 络 解决 实际 问题 
之 前 ,首先 必须 掌握 人 工 神经 元 的 模型 。 人 工 神经 元 的 基本 结构 ， 见 图 9- 1。 

图 9-1 中 ，z1，z:，*…，Z, 是 神经 元 的 输入 ， 它 可 以 是 来 自 外 界 的 信息 ， 
也 可 能 是 另 一 个 神经 元 的 输出 ; wy ，wws，…，w, 是 神经 元 的 权 值 ， 它 表示 神经 
元 的 连接 强度 ， 由 神经 网 络 的 学 习 过 程 决定 ; 9 是 神经 元 的 内 部 阔 值 (thresh- 
old); f(，) 是 神经 元 的 激活 函数 (activation function)( 也 叫 传递 函数 ) ， 其 作用 
是 控制 输入 对 输出 的 激活 作用 ， 把 可 能 的 无 限 域 变换 到 给 定 的 范围 输出 ， 对 输 


@ 状 态 方式 | 
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人 、 输 出 进行 函数 转换 ， 以 模拟 生物 神经 元 线性 或 非 线性 转移 特性 。 由 图 9 - 1 
可 见 ， 简 单 神经 元 主要 由 权 值 、 阔 值 和 /(。 ) 的 形式 来 定义 ， 它 通过 对 多 个 输入 
值 与 权 值 乘积 和 施加 线性 或 非 线性 函数 变换 而 得 到 输出 值 y: 








输入 神经 元 输出 
图 9- 1 人 工 神经 元 基本 结构 图 


y= /( Du 一 9) 
/(，) 一 般 取 下 面 三 种 函数 : 
(1) 线性 传递 函数 (图 9- 2) 


y= f(a)=a 











图 9-2 线性 传递 函数 图 
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a 
(2) 双 曲 正切 S 型 传递 函数 (图 9 -3) 


=1—ep(—24》 
y= 主演 在 2a) 





1.0 T T T T T 


N00 
-0.2 | 


-0.6| | 
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关系 1 2 过 4 5 
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图 9-3 双 曲 正切 S 型 传递 函数 图 


(3) 对 数 S 型 传递 函数 (图 9-4) 


y=f(a)=——l 


1 十 exp( 一 a) 
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图 9-4 对 数 S 型 传递 函数 图 
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1986 年 ，D. Rumelhart 等 提出 的 error back-propagation 算法 (简称 BP 算 
法 )， 系 统 地 解决 了 多 层 网 络 中 隐 单 元 层 连 接 权 的 学 习 问题 ， 并 在 数学 上 给 出 了 
完整 的 推导 。 目 前 BP 模型 已 成 为 人 工 神经 网 络 的 重要 模型 之 一 ， 并 得 到 了 广泛 
的 应 用 。 在 ANN 的 实际 应 用 中 ，80% 一 90% 的 ANN 模型 是 采用 BP 网 络 模型 
或 它 的 变形 ， 它 也 是 前 馈 网 络 的 核心 部 分 ， 体 现 了 ANN 最 精华 的 部 分 。 


9.3.1 BP 神经 网 络 原 理 








BP 人 工 神经 网 络 模型 由 输入 层 、 隐 含 层 、 输 出 层 组 成 ， 其 拓扑 结构 如 图 9 -5 
所 示 。 


沾 塌 > 过 





输入 神经 元 i 隐 层 神经 元 j 输出 神经 元 / 
图 9-5 BP 网络 的 拓扑 结构 


如 果 输 入 层 的 节点 数目 为 4%， 输出 层 的 节点 数目 为 mw， 则 网 络 是 从 n 维 欧 氏 
空间 到 wm 维 欧 氏 空间 的 映射 。 

定理 1 具有 nn 个 输入 神经 元 、2n 十 1 个 隐 层 神经 元 入 个 输出 神经 元 的 前 
向 三 层 神经 网 络 可 以 以 任意 精度 逼近 任何 紧 致 子 集 上 的 连续 函数 ( 史 忠 植 ， 
1995) 。 

定理 1 指出 了 神经 网 络 逼 近 一 个 连续 函数 ， 其 网 络 节点 个 数 所 需 满足 的 一 个 
充分 条 件 。 

定理 2 设 g(X) 为 有 界 单调 递增 连续 函数 ,I 为 R, 的 紧 致 子 集 ， 固 定 层 数 
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全 3， 则 对 任何 连续 映射 J/: I>R"， 可 由 上 层 网 络 来 到 近 ， 此 网 络 的 隐 单 元 的 输 
出 为 g(X)， 而 输入 和 输出 单元 之 输出 关系 是 线性 的 。 

定理 2 指出 了 神经 网 络 通 近 一 个 连续 函数 ， 其 隐 单 元 、 输 入 和 输出 单元 传递 
函数 所 需 满足 的 一 个 充分 条 件 。 

对 于 一 个 BP 神经 网 络 通常 是 通过 对 简单 的 非 线性 函数 ， 例 如 S 型 函数 的 复 
合 来 实现 这 一 映射 的 ， 只 要 经 过 少数 几 次 复合 ， 就 可 得 到 极 复杂 的 函数 ， 从 而 可 
以 模拟 现实 世界 的 复杂 现象 。 设 X 是 ” 维 输入 向 量 , Y 是 m 维 输出 向 量 ， 由 于 
对 mm 和 的 大 小 没有 什么 限制 ， 使 得 许多 实际 环境 预测 和 综合 评价 问题 都 可 化 
成 用 BP 神经 网 络 来 解决 。BP 神经 网 络 的 这 种 函数 拟 合 功能 ， 就 是 它 在 环境 预测 
和 综合 评价 中 应 用 的 理论 依据 。 


9.3.2 BP 算法 


BP 算法 的 核心 是 通过 一 边 向 后 传播 误差 ,一边 修 正 误差 的 方法 来 不 断 调 
节 网 络 参数 ( 权 值 和 阔 值 )， 以 实现 或 逼近 所 希望 的 输入 、 输 出 映射 关系 。 它 对 
每 一 个 训练 过 程 进行 两 次 传播 计算 ; 第 一 次 ， 前 向 计算 。 从 输入 层 开始 向 后 逐 
层 计算 输出 ， 产 生 最 终 输出 ， 并 计算 实际 输出 与 目标 输出 间 的 误差 ， 第 二 次 
反 向 计算 。 从 输出 层 开 始 向 前 逐 层 传播 误差 信号 ， 修 正 权 值 ， 直 到 误差 小 于 给 
定 值 。 

图 9-6 给 出 了 BP 算 法 原理 图 。 在 这 种 网 络 中 ， 学 习 过 程 由 正 向 传播 和 反 向 
传播 组 成 。 在 正 向 传播 过 程 中 ， 输 入 信号 从 输入 层 经 隐 层 单元 逐 层 处 理 ， 并 传 向 
输出 层 ， 每 一 层 神经 元 的 状态 只 影响 下 一 层 神经 元 的 状态 。 如 果 在 输出 层 不 能 得 
到 期 望 的 输出 ， 则 转 和 人 误差 反 向 传播 ， 将 输出 信号 的 误差 沿 原来 的 连接 通路 返 
回 。 通 过 修改 各 层 神经 元 的 权 值 和 阔 值 ， 使 得 网 络 全 局 误差 信号 最 小 。 

下 面 进一步 以 图 9- 7 所 示 的 三 层 BP 神经 网 络 为 例 ( 金 菊 良 等 ，2000)， 详 细 
说 明 单 样本 点 的 BP 算法 的 实现 过 程 。 设 输入 神经 元 为 h， 隐 层 神经 元 为 i， 输出 
神经 元 为 j，n%，nm， 分 别 为 三 层 的 节点 数目 ，% ，4 分 别 为 隐 层 节点 i、 输 出 
层 节点 了 的 阔 值 ，rwi，z5 分 别 为 输入 层 节 点 刀 与 隐 层 节点 i 间 、 隐 层 节 点 i 与 
输出 层 节点 j 间 的 连 线 的 权 值 ， 各 节点 的 输入 为 z， 输 出 为 y 
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一 正 向 传播 
输入 层 ” 隐 层 输出 层 。“““ 反 向 传播 


图 9-6 BP 算法 原理 示意 图 


输出 模式 {di,;) 












09， 输出 神经 元/ 
Ww 


(0 


输出 层 m 
隐 层 m 
Re _ 一 为 90， 隐 层 神经 元 i 
= 法 < 二 < 
Sp 


rs 






输入 神经 元 


输入 模式 {zuh)} 
图 9-7 BP 神经 网 络 的 拓扑 结构 


BP 人 工 神 经 网 络 的 学 习 算法 包含 以 下 9 个 步骤 。 


步骤 1: 初始 化 。 为 了 加 快 网 络 的 学 习 效率 ， 需 对 原始 的 输入 、 输 出 样本 作 
规范 化 处 理 。 设 已 归 一 化 的 输入 、 输 出 样本 为 {zi4， dri | 人 一 1，2，…，mui 
1 一 1，2，…， mi j 一 1，2，…， 二 )， 因 为 样本 容量 。 给 各 连接 权 {whi}，{ww;} 


和 韶 值 {9.} ，(9;) 赋予 (一 0. 1，0. 1) 区 间 上 的 随机 值 。 


步骤 2: 置 k 二 1， 把 样本 对 (zi，dij) 提 供给 网 络 (h 二 1，2,，…，m; 7 一 


0 
步骤 3: 计算 隐 层 各 节点 的 输入 x;、 输 出 y(i==1，2,，…， nn)。 
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xi = Dri 十 6 
y= fi(zi) 
其 中 ， 户 (，) 是 隐 层 各 节点 神经 元 的 激活 函数 。 
步骤 4: 计算 输出 层 各 节点 的 输入 立 、 输 出 (一 1，2，…， 思 ); 
五 一 Dy + 
be 
W = f(x) 
其 中 ，/f.(，) 是 输出 层 各 节点 神经 元 的 激活 函数 。 
计算 第 k 个 单 样 本 点 的 误差 : 
FE = Dy — den):/2 
BP 算法 中 EE, 与 其 他 变量 之 间 的 函数 关系 参见 图 9- 8。 


一 
AN AN 
9, Wy 9 


图 9-8 BP 算 法 中 及 与 其 他 变量 之 间 的 函数 关系 示意 图 


各 层 连接 权 及 阔 值 的 调整 ， 按 梯度 下 降 法 的 原则 进行 。 
步骤 5: 计算 输出 层 权 值 和 阔 值 的 修正 量 Arwi ，Ab 。 


IB_9B. 9 
gradw (Et) = at dz ar 


=[(%—di) * f(x)]* yr 
一 六 ji， 和 





_ .9E 

7 9 wy 
CA 

90 dz 30 
=[(%—dis)* fz) * 1 
一 0 





Aws = 


grads, (E)= 








a 
A = a 


步骤 6: 计算 隐 层 权 值 和 阔 值 的 修正 量 Avww，Ab;。 
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a9E _aE, a9z 
grad,, (E)= a 
a 六 是 .gz ay: | ,az 
各 az ay ar ar 
= [Poa fa fed] eo 
| 
= [Sa. "ws fi] a 
jt 
丽 %， ® Thh 
了 三 
Awi=—7* EE 
erad (Ei) 一 也 训 一 3 卫 ， 日 五 








= A By * ws » f 1(71) 
f= 

2 
ey 

Apb= 一 7 50 


步骤 7: 修正 各 连接 的 权 值 和 阔 值 。 


取信 一 to 十 Aroy 


0 人 一 0 十 Ab 
Ww 委 ! 二 Ww 十 Aw 
0 全 一 0 十 Abi 


式 中 , + 为 修正 次 数 ， 学 习 速 率 JE (0，1)。 若 了 较 大 ， 则 算法 收敛 快 ， 但 不 稳 
定 ， 可 能 出 现 振荡 ， 若 7 较 小 则 算法 收敛 缓慢 。 

步骤 8: 置 人 一 上 十 1， 取 学 习 模式 对 (zt ，w) 提 供给 网 络 ， 转 步骤 3， 直 至 
全 部 nm 个 模式 对 训练 完毕 ， 转 步骤 9。 

步骤 9: 重复 步骤 2 一 8， 直 至 网 络 全 局 误差 函数 。 
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至 过 Sh ee » 3 —di)*/2 
小 于 预先 设 定 的 一 个 较 小 值 或 学 习 次 数 大 于 预先 设 定 的 值 ， 结 束 学 习 。 
BP 算法 程序 框图 ， 见 图 9- 9。 
[初始 化 训练 样本 、 权 值 、 闵 值 
[输入 训练 样本 对 ] 


[计算 隐 层 、 输 
















出 层 各 节点 的 输入 、 输 出 ] 
计算 输出 层 、 隐 层 各 节点 样本 
误差 关于 权 值 和 阔 值 的 变化 率 


















更 新 训练 样本 对 ， 直 到 全 部 样本 对 训练 完毕 













更 新 学 习 次 数 ， 直 到 全 局 误差 小 于 


定 允 许 
误差 值 或 学 习 次 数 大 于 指定 允许 最 大 次 数 





图 9-9 BP 算法 程序 框图 


可 见 BP 算法 把 一 组 样本 的 输入 、 输 出 问题 归纳 为 一 非 线性 优化 问题 ， 它 使 
用 了 最 优化 方法 中 最 常用 的 负 梯 度 下 降 算 法 。 

用 迭代 运算 求解 网 络 权重 和 阔 值 对 应 于 网 络 的 学 习 记 忆 过 程 ， 加 入 隐 层 节点 
使 得 优化 问题 的 可 调 参数 增加 ， 从 而 可 得 到 更 精确 的 解 。 

BP 算法 的 优点 是 算法 推导 清楚 ， 学 习 精 度 较 高 ， 可 用 作 一 个 通用 的 函数 模 
拟 器 ; 从 理论 上 说 ， 用 BP 算法 可 以 逼近 任何 的 非 线性 函数 ;经 过 训练 后 的 BP 
网 络 运行 速度 极 快 ， 可 用 于 实时 处 理 。 但 是 ，BP 算法 也 可 能 存在 局 部 极 小 和 收 
敛 缓慢 的 缺陷 。 

例 9.1 用 BP 算法 解 异 或 问题 

异 或 问题 的 输入 、 输 出 样本 对 为 (0, 0) 一 0, (0, DD 一 1, (1, 0) 一 1， 
(1, D>0。 

解 ” 取 隐 层 节点 数目 为 2， 学 习 速 率 为 0.1，BP 网 络 的 拓扑 结构 见 图 9- 10。 
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图 9- 10 解 异 或 问题 BP 网 络 的 拓扑 结构 


用 S 型 非 线性 传递 函数 ， 输 入 层 、 输 出 层 采用 线性 函数 。 
BP 网 络 的 训练 误差 见 图 9- 11，BP 算法 (2-2-1) 的 隐 层 训练 结果 见 





图 9 - 12。 














误差 平方 和 


三 











200 300 400 500 
和 迭代 次 数 


图 9-11 BP 算法 (2-2-1) 的 训练 误差 图 


0 100 


BP 算法 各 层 训练 结果 如 下 : 


(1) 隐 层 训练 结果 
was=7.7437 —6.6925 


2.759 5 一 2.086 1 
0:=—1.691 1, 7.4525 
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一 2.8"x+0.61 








-2 = . 2 


0 
x(1) 


图 9-12 BP 算法 (2-2-1) 的 隐 层 训练 结果 图 
(2) 输 出 层 训 练 结果 


ws =1.679 1 
1.7172 
0=—1.950 5 
BP 计算 值 : 
y =0.027 1, 1.008 5, 0.894 7，0.088 6 
目标 值 : 


T=0, 1, 1, 0 
BP 网 络 训练 结果 ， 见 图 9 一 13。 


-1.6911 





7.4525 
图 9-13 BP 算法 (2-2-1) 的 训练 结果 图 


下 面 讨论 解 异 或 问题 的 隐 层 节点 数 和 学 习 速 率 对 网 络 训练 的 影响 。 
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1。 隐 层 节 点 对 网 络 训 练 的 影响 
BP 算法 隐 层 节点 对 网 络 训练 的 影响 详 见 表 9. 2。BP 算法 的 迭代 次 数 与 隐 层 
节点 的 关系 见 图 9- 14。 








表 9.2 隐 层 节点 对 网 络 训 练 的 影响 
隐 层 节点 数 迭代 次 数 误差 
568 0.0197 
3 85 0.0195 
4 275 0.019 1 
5 141 0.0197 
6 181 0.0200 
7 17 0.0196 
8 42 0.0196 
9 37 0.0192 
10 14 0.016 8 
15 55 0.016 5 
20 30 0.0200 
25 28 0.0200 
30 59 0.0200 





从 上 面 的 结果 可 以 看 出 ， 随 着 隐 层 节点 数 的 增加 ， 训 练 次 数 会 减少 ， 但 增加 
到 一 定数 目 后 ， 训 练 次 数 又 会 增加 。 

2， 学 习 速 率 对 网 络 训练 的 影响 

如 图 9-15 一 9-17， 分 别 给 出 了 学 习 速 率 为 0. 01，0. 1，1 时 对 网 络 训练 的 
影响 。 

从 结果 可 以 看 出 ， 随 着 学 习 速 率 的 增加 ， 网 络 的 训练 次 数 会 减少 ， 但 增加 到 
一 定数 目 后 ， 训 练 次 数 又 会 增加 ， 且 极 不 稳定 。 从 综合 角度 来 看 ， 此 例 学 习 速 率 
选择 0. 1 是 比较 合适 的 。 

综 上 所 述 ， 可 以 得 到 以 下 结论 : 

(1) 太 大 的 学 习 速率 导致 学 习 的 不 稳定 ， 太 小 值 又 导致 极 长 的 训练 时 间 。 

(2) 在 误差 一 定 的 情况 下 ， 随 着 隐 层 节点 数 的 增加 ， 训 练 次 数 会 减少 ， 但 增 
加 到 一 定数 目 后 ， 训 练 次 数 又 会 增加 。 
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图 9-14 BP 算法 的 迭代 次 数 与 隐 层 节点 的 关系 图 





误差 平方 和 











0 1 1 i 1 1 
0 200 400 600 800 1000 1200 1400 1600 1800 
选 人 
图 9-15 学 习 速 率 为 0.01 时 网 络 训练 的 结果 图 


(3) BP 网 络 的 结构 不 完全 受 所 要 解决 问题 的 限制 。 网 络 的 输入 神经 元 数目 
以 及 输出 神经 元 数目 是 由 问题 的 要 求 所 决定 的 ， 而 隐 层 数 是 由 设计 者 来 决定 。 
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迭代 次 数 

















PE Es 

0 200 400 600 800 1000 1200 1400 1600 1800 2000 
和 迭代 次 数 

图 9-17 学 习 速率 为 1 时 网 络 训练 的 结果 图 


(4) BP 网 络 的 学 习 采 用 梯度 下 降 法 ， 网 络 误差 有 可 能 陷入 局 部 极 小 值 ， 可 
采用 附加 动量 法 等 改进 方法 来 训练 网 络 。 


9.3.3 环境 应 用 
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例 9.2 新 疆 伊犁 河 雅 马 渡 站 年 径流 的 预测 ( 陈 守 煜 ，1997)。 该 站 23 年 实测 
年 径流 与 其 相应 的 4 个 预测 因子 数据 见 表 9. 3。 预 测 因子 a1，az，as，a 分 别 
为 前 一 年 11 月 至 当年 3 月 伊犁 气象 站 的 总 降雨 量 (mm) ， 前 一 年 8 月 欧 亚 地 区 月 
平均 纬 向 环流 指数 ， 前 一 年 5 月 欧 亚 地 区 径 向 环流 指数 ， 前 一 年 6 月 2 800 MHz 
的 太阳 射电 流量 (10-*W/m?*Hz) 。 取 最 前 17 个 资料 为 建 模样 本 ， 最 后 6 年 资料 
为 测试 样本 。BP 神经 网 络 模型 的 拓扑 结构 取 (4，5，1)。 用 上 述 模型 运行 66 次 ， 
网 络 的 全 局 误差 E=3.760 57e-008， 见 表 9. 3。 表 9. 3 同时 给 出 了 测试 结果 和 预 
测 值 的 绝对 误差 。 由 此 可 见 所 建立 的 BP 神经 网 络 模型 可 以 用 来 预测 年 径流 。 














表 9.3 BP 模型 年 径流 预测 的 训练 和 测试 结果 
预测 因子 年 径流 什 年 径流 值 误差 
a aa as a 实测 计算 绝对 误差 
训练 114. 6 1. 10 0.71 85.0 346 345.993 9 0.006 1 
132.4 0.97 0.54 73.0 410 409. 989 6 0.010 4 
103.5 0.96 0.66 67.0 385 385.0086 一 0.0086 
179.3 0.88 0.59 89.0 446 445.957 7 0.0423 
92.7 1.15 0.44 154.0 300 300.0212 一 0.0212 
115.0 0.74 0.65 252.0 453 453.0316 一 0.0316 
163.6 0.85 0.58 220.0 495 495.2045 一 0.2045 
139.5 0.70 0. 59 217.0 478 478.2359 一 0.235 9 
76.7 0.95 0.51 162.0 341 341,1712 —0.1712 
42.1 1.08 0.47 110.0 326 326.0239 一 0.023 9 
77.8 1.19 0.57 91.0 364 363. 983 7 0.016 3 
100.6 0.82 0.59 83.0 456 455. 989 8 0.0102 
55.3 0.96 0.40 69.0 300 299. 996 5 0.0035 
152.1 1.04 0.49 77.0 433 432. 984 4 0.015 6 
81.0 1.08 0.54 96.0 336 336.005 2 一 0.005 2 
29.8 0.83 0. 49 120.0 289 289.1318 一 0.1318 
248.6 0.79 0.50 147.0 483 482.907 9 0.092 1 
测试 89.9 0.96 0. 39 105.0 314 317.669 4 3.6694 
90.0 0.95 0.43 89.0 301 306.747 9 5.7479 
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例 9.3 以 长 江 重 庆 二 





F 流 段 1989 年 的 实测 水 质 资料 ( 郭 劲 松 等 ，2001) 来 建立 


BOD-DO 耦合 BP 网 络 模型 。 研 究 范围 为 长 江 重庆 干流 段 ， 从 江津 市 羊 石 乡 史 坝 
沱 到 长 寿 县 黄 草 峡 ， 全 长 240. 8 km。 根 据 沿 江 污染 源 分 布 状态 、 水 质 监测 断面 
以 及 流 场 变化 情况 ， 将 干流 段 划分 为 五 个 研究 江 段 。 所 采用 的 实测 水 质 资料 如 表 
9.4 所 示 ， 其 中 1 一 4 为 枯水期 各 个 河 段 的 水 质 资 料 ，5 一 8 为 丰 水 期 各 个 河 段 的 
水 质 资料 ， 两 个 时 期 所 对 应 河 段 分 别 为 : 羊 石 一 白沙 沱 ， 和 白沙 沱 一 望 龙 门 ， 望 龙 
门 一 才 浴 ， 才 滩 一 鱼 嘴 ，9 和 10 分 别 为 枯水期 与 丰 水 期 的 鱼 嘴 一 长 寿 段 的 水 质 
资料 。 前 四 个 河 段 的 水 质数 据 作 为 BP 网 络 的 训练 数据 ， 最 后 一 个 河 段 数据 作为 











验证 数据 。 
表 9.4 BP 网 络 水 质 模拟 输入 水 质 资料 
背景 人 河 段 基本 情况 本 段 污染 物 负 菏 值 
新 
流 直 Qf DO 。B0D/ 长 放 。 页。 溃 。。 流 鲁 9/ Qos。 Clke， DO/ BOD/ 
遍 (Om (mgs (ngs 1/ oe (mb tage 
ET 
km 
1 0.2990 86 1.1 1.178 0.55 1.220 0.7979 0.4127 0.1493 8.4 1.1 
2 0.3069 8.4 1.1 0.420 0.30 0.797 0.0492 0.0454 1.0913 8.5 1.2 
3 0.3075 8.5 1.2 0.080 0.35 1.916 6.7589 67.0125 14.5655 83 15 
4 0.4426 8.3 1.5 0.230 0.35 1.420 0.0158 0.0380 0.0713 8.4 1.2 
5 1.7200 7.5 0.3 1.178 0.80 1.939 2.7443 0.1777 0.0513 7.0 0.6 
6 1.7474 7.0 0.6 0.420 0.70 1.488 0.1471 0.0191 0.1312 7.4 0.8 
7 1.7489 7.4 0.8 0.080 0.70 2.339 0.3939 2.5875 0.3859 7.5 0.9 
8 2.1469 和 5 0.9 0.230 0.70 2.878 00541 0.0195 0.0073 7.3 1.0 
9 0.428 8.4 1.2 0.500 0.30 0.940 0.5429 0.4867 0.4550 8.5 1.5 
10 2.1473 7.3 10 0.500 480 2.016 1.8989 0.2985 0.0834 7.2 0.9 


合理 确定 BP 网 络 的 结构 是 预测 性 能 的 基础 。 经 过 实验 ， 输 入 层 的 神经 元 数 
取 9， 输 出 的 神经 元 数 取 2， 隐 含 层 的 神经 元 数 取 10。 经 过 2 000 次 训练 后 ， 网 
络 的 训练 误差 为 7. 537 39e-008 左右 。 其 训练 样本 模拟 结果 和 检测 样本 预测 结果 
与 实测 值 比较 ， 如 表 9. 5 所 示 。 检 测 样本 模拟 结果 和 检测 样本 预测 结果 与 实测 值 
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比较 ， 如 表 9. 6 所 示 ， 可 见 BP 网 络 可 以 预测 河流 水 质 。 











表 9.5 训练 样本 模拟 结果 与 实测 值 的 比较 
有 数 据 组 
指标 
1 2 3 Ci 6 7 8 
实测 值 84 8&5 8.4 7.0 7.4 7.5 7.3 


DO 预测 值 3.3935 8.4985 8.3006 8.3982 7.0017 7.3983 7.5014 7.3004 
绝对 误差 0.0065 0.0015 一 0.0006 0.001 8 一 0.0017 0.0017 一 0.0014 一 0,0004 
实测 值 1.1 1.2 1.5 1.2 0.6 0.8 0.9 1.0 

BOD 预测 值 1.1001 1.2000 14997 1.1993 0.6002 0.8003 0.9004 0.9997 





绝对 误差 一 0.0001 0.0000 0.0003 0.0007 一 0.0002 一 0.0003 一 0.0004 0.0003 








表 9.6 检测 样本 预测 结果 与 实测 值 的 比较 
指标 实测 值 预测 值 绝对 误差 
8.5 8.307 8 一 0.192 2 
DO 
7.015 3 一 0.1847 
1.5 1.222 3 一 0.277 7 
BOD 
0.9 1.0179 0.1179 





BP 神经 网 络 用 于 预测 、 评 价 、 函 数 逼 近 时 ， 权 值 调节 采用 的 是 负 梯度 下 降 
法 ,该 法 有 它 的 局 限 性 ， 即 存在 收敛 速度 慢 和 局 部 极 小 等 缺点 。 而 径 向 基 函 数 
(radial basis function，RBF) 神 经 网 络 无 论 在 台 近 能 力 、 分 类 能 力 和 学 习 速 度 等 
方面 均 优 于 BP 神经 网 络 ( 闻 新 等 ，2003)， 本 节 给 出 Matlab6. 5 环境 下 的 RBF 网 
络 模型 。 


9.4.1 RBF 神经 网 络 原理 











RBF 网 络 由 两 层 组 成 ， 第 一 层 为 隐 含 的 径 向 基层 ， 第 二 层 为 输出 线性 层 ， 
其 网 络 结构 如 图 9- 18 所 示 。 
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径 向 基 函 数 是 径 向 对 称 的 ， 最 常用 的 是 高 斯 函数 : 
ReO=exp( 一 上 二 ) (=1 2 “0 BD) 


其 中 , x 是 m 维 输入 向 量 ，c; 是 第 i 个 基 函 数 的 中 心 ，c; 是 第 i 个 感知 的 变量 ，p 
是 感知 单元 的 个 数 ，|| x 一 ci | 是 向 量 x 一 ei 的 范 数 。 





输入 层 径 向 基层 输出 线性 层 





图 9-18 RBF 网 络 结构 


从 图 9-18 可 以 看 出 ， 输 入 层 实现 从 x->R;(x) 的 非 线 性 映射 ， 输 出 层 实现 从 
R(x) 一 ys 的 线性 映射 ， 即 : 


NR 
其 中 ，g 是 输出 节点 数 。 
从 理论 上 而 言 ，RBF 网 络 可 以 通 近 任何 的 非 线 性 函数 。 


9.4.2 RBF 神经 网 络 模型 








RBF 网 络 模型 不 仅 可 以 用 来 函数 逼近 ， 还 可 以 进行 预测 和 评价 。 为 了 能 够 
具体 说 明 RBF 网 络 模型 的 建立 过 程 ， 本 节 直 接 给 出 用 于 时 间 序 列 预测 的 RBF 网 
络 模型 。 

实际 时 间 序 列 在 时 序 上 常常 表现 出 弱 相 依 性 、 突 变性 和 随机 性 等 复杂 非 线性 
特征 ， 至 今 对 此 进行 有 效 描述 的 数学 模型 仍 不 很 成 熟 。TAR 模型 、 多 元 线性 回 
归 、 灰 色 模 型 、 投 影 寻 踪 回归 、 未 确 知 模拟 模型 、 模 糊 预测 、 人 工 神经 网 络 、 组 
合 预测 、 混 沌 分 析 等 预测 模型 ( 金 菊 良 等 ，1999) 都 有 各 自 的 特点 。 

本 节 将 RBF 网 络 法 应 用 于 时 间 序 列 预测 ， 用 自 相 关 分 析 技术 分 析 时 间 序 列 
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的 延迟 特性 ， 据 此 确定 RBF 网 络 的 输入 、 输 出 向 量 ， 建 立 了 Matlab6. 5 环境 下 
的 RBF 网 络 模型 ， 并 用 实例 进行 了 验证 。RBF 网 络 模型 包含 以 下 3 步 。 

1. 用 自 相关 分 析 技 术 确 定 RBF 网 络 模型 的 输入 、 输 出 向 量 

设 时 序 (zx" (2)) 延迟 k& 步 的 自 相关 系数 R(k) 为 : 


R(k)= 3 [z* © —elz’ G—A—e)/ BE? X 太 二 所 闻 


e = 2 (Gin 
im 
其 中 ,为 实测 时 序 { z* (i)} 的 容量 ，& 王 1，2，…, mm 过 [nn/10] 或 [zx/4。 
R(k) 的 方差 随 上 的 增 大 而 增 大 ，R(ni) 的 估计 精度 随 mw 的 增加 而 降低 ， 因 此 nm 
应 取 较 小 的 数值 。 
根据 RC&) 的 抽样 分 布 理论 ， 在 置信 水 平 1 一 a 的 情况 下 ， 当 自 相 关系 数值 
RE) ELC—1—wuws * n—k—1)"s)/Cn—k), (—1l+us * (n—k—1)"s/(n—k)] 
(9.1) 
时 ， 则 推断 时 序 {z* (让 ) 延迟 上 步 相依 性 显著 ， 否 则 时 序 {zx* (i)) 延迟 & 步 相 
依 性 不 显著 。 其 中 ， 分 位 数 ws 可 从 正 态 分 布 表 中 查 得 。 它 的 自 回归 系数 项 应 与 
这 些 相依 性 显著 的 延迟 步 数 相对 应 。 设 最 大 相依 性 延迟 步 数 为 mw， 则 对 于 个 容 
量 的 时 间 序列 ， 其 RBF 网 络 训练 样本 的 输入 、 输 出 向 量 为 以 下 n 一 m 组 : 
一 [zf ，zmt2， 0 y= Ly yt oy (9. 2) 
其 中 , x=[zx* Gi 一 m)，z* Gi 一 m 十 DD) (i 一 D], y=zx’*(i) (i=mt+l, 
y 十 2，…，)， 区 ， 洲 分 别 为 m 维 输入 向 量 和 1 维 输出 向 量 ， 本 节 输 出 节点 数 
g 二 1。 Xx，y 分 别 为 n 一 m 组 m 维 输入 向 量 和 1 维 输出 向 量 所 构成 的 训练 样本 
和 矩阵。 
2 用 newrb 函数 设计 一 个 满足 一 定 精度 要 求 的 RBF 网 络 
格式 :net 王 newrb(K，y，goaL，sbread) 
用 RBF 网 络 表 近 函数 时 ，newrb 可 自动 增加 RBF 网 络 的 隐 层 神经 元 ， 直 到 
均 方 误差 满足 为 止 。 其 中 x，y，goal，spread 分 别 为 输入 向 量 和 矩阵 、 目 标 向 量 
和 矩阵 、 均 方 误差 和 RBF 的 分 布 。 
3. 用 sim 函数 对 时 间 序 列 进行 预测 
格式 :0 一 simCnet，a) 
其 中 ，a，0 分 别 为 待 评价 时 间 序列 的 输入 向 量 和 用 RBF 网 络 对 时 间 序 列 进行 计 
算 的 预测 值 。 
以 上 3 步 构成 时 间 序 列 预测 的 Matlab6. 5 环境 下 的 RBF 网 络 模型 。 
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9.4.3 环境 应 用 


例 9.4 海洋 冰 情 时 间 序列 是 海洋 灾害 管理 的 基本 资料 之 一 ， 对 其 进行 有 效 
预测 ， 可 为 减轻 海洋 冰 灾 损失 提供 重要 的 理论 指导 。 因 冰 情 序列 受众 多 不 确定 性 
因素 影响 ， 在 时 序 上 常常 表现 出 弱 相 依 性 、 突 变性 和 随机 性 等 复杂 的 非 线性 特 
征 ， 至 今 对 此 进行 有 效 描述 的 数学 模型 仍 不 很 成 熟 。 为 了 说 明 上 述 模型 的 有 效 
性 ， 现 利用 表 9. 7 中 1966 一 1993 年 度 冰 情 等 级 资料 序列 {zx* (i)， i 二 1 一 27} ( 杨 
晓 华 等 ，1999; 余 加 艾 等 ，1995) 来 建立 RBF 网 络 冰 情 预 测 模型 。 表 9.7 中 ， 
1966 表示 1966 一 1967 年 度 ，1993 表示 1993 一 1994 年 度 ， 余 类 推 。 

计算 该 序列 前 6 阶 自 相 关系 数值 R(k) 和 与 之 相应 的 式 (9.1) 右 边 上 、 下 限 
Rs(k)、R1(k) 值 ， 结 果 见 表 9.8， 其 中 置信 水 平 取 70%。 表 9.8 显示 ， 只 有 
R(1)、R(3)、R(4) 的 相依 性 在 置信 水 平 70% 的 条 件 下 是 显著 的 ， 故 这 里 以 最 大 
相依 性 延迟 步 数 m 二 4， 作 为 RBF 网 络 模型 输入 向 量 的 维 数 。 


表 9.7 某 海洋 冰 情 等 级 序列 实测 值 和 各 模型 的 拟 合 结果 与 预测 结果 “单位 : 冰 级 
年 度 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 





实测 值 3.004.50 5.00 3.00 3.50 3.00 1.00 3.00 1.50 1.50 4.50 2.50 250 3.00 


TAR 计算 什 3.05 260 177 265 245 165 293 263 287 3.62 
绝对 误差 * 0.45 0.40—0.77 0.35—0.95 —0.15 157 一 0.13 一 0.37 一 0.62 
RBF 方法 350 3%0 10 300 150 150 450 250 250 3.00 
绝对 误差 " 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 








年 度 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 





实测 值 2.50 250 200 3.00 3.50 300 300 200 150 30 150 150 1.50 1.50 
TAR 计算 值 1.87 2.66 2.79 2.33 2.78 2.76 3.13 2.80 2.22 2.53 2.42 2.07 2.83 1.87 
绝对 误差 ” 0. 63 一 0.16 一 0.79 0.67 0.72 0.24 一 0.13 一 0.80 一 0.72 0.47 一 0.92 一 0.57 一 1.33 一 0.37 
RBF 方法 250 250 200 3.00 3.50 3.00 300 200 150 3.00 150 150 150 1.76 
绝对 误差 ** 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 一 0.26 


注 :“ 表 示 TAR 的 绝对 误差 ，”“ 表示 RBF 方法 的 绝对 误差 。 
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表 9.8  ” 某 海洋 冰 情 等 级 序列 自 相关 系数 及 其 上 、 下 限 值 (置信 水 平 70%) 
k 1 2 4 5 6 
Ri(k) 一 0.238 一 0.244 一 0. 249 一 0.256 一 0.262 一 0. 269 
R(k) 0.251 0. 105 0.217 一 0.278 一 0.100 一 0.110 
Ri (k) 0.162 0. 164 0.166 0. 169 0.171 0. 174 





取 表 9. 7 中 1970 一 1993 年 度 冰 情 等 级 作为 训练 样本 ， 用 Matlab6. 5 环境 下 
的 RBF 网 络 法 对 1993 一 1994 年 度 冰 情 等 级 的 预测 结果 参见 表 9.7。RBF 网 络 计 
算 过 程 如 下 : 

1， 用 式 (9. 2) 建 立 "一 由 组 训练 样本 的 输入 、 输 出 向 量 。 

一 [zoH，z2 1 [yt yt oy 

这 里 , n= 二 27, m= 二 4。 

2， 设计 RBF 网 络 。 令 g 二 0.000 01,，;s 二 1 

net=newrb(x, y, g, 5) 

其 中 ，newrb 为 径 向 基 网 络 设 计 函 数 ，g 为 训练 精度 ，s 为 径 向 基层 的 散布 常数 。 

3， 由 t= 二 sim(net，x)， 可 得 网 络 的 训练 结果 。 

sim 为 模拟 函数 ， 由 plot(h，y， 素 X ，h，t，'kO 〇 ”可 得 网 络 训练 的 图 形 输出 结 
果 , 如 图 9- 19。 这 里 大 代表 各 冰 情 等 级 所 对 应 的 年 度 序 号 ，A 一 (5，6，…，27)。 
y 代表 各 年 度 冰 情 等 级 的 目标 值 ， 用 “X” 表 示 。: 代表 各 年 度 冰 情 等 级 的 计算 
值 ， 用 “ 〇 ”表示 。 从 图 9- 19 可 以 看 出 ， 计 算 误差 为 0。 








O 5 T = ning Te 
| @ 
地 4 
让 @ 
3[e @ @ ee ee  e@ 
和 ee ee 
过 2 @ 
@e@ @ eee 
站 
Wl 15 20 25 30 
各 年 度 序号 


图 9-19 网 络 的 训练 结果 


由 a 二 (3.0, 1.5, 1.5, 1.5) 和 4 二 sim (net，a)， 可 得 到 1993 一 1994 年 
度 冰 情 等 级 的 预测 结果 0 一 1. 756 6， 详 见 表 9.7。 
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在 表 9. 7 中 1993 一 1994 年 度 为 试 报 ， 其 余 为 历史 预报 。 从 表 9. 7 可 知 ， 在 
23 次 历史 预报 中 ， 每 次 绝对 误差 均 为 0. 00， 训 练 样本 合格 率 为 100% ， 而 试 报 绝 
对 误差 小 于 0. 30， 较 TAR 模型 的 精度 有 了 显著 提高 。RBF 网 络 模型 虽然 仅 利用 
海洋 冰 情 等 级 时 序 延 迟 1 步 、 延 迟 2 步 、 延 迟 3 步 和 延迟 4 步 的 相依 信息 ， 但 由 
于 RBF 网 络 可 以 描述 该 时 序 非 线性 动态 系统 ， 其 拟 合 精度 和 预测 精度 都 是 令 人 
满意 的 。 


【思考 题 9】 


试 述 BP 神经 网 络 原理 。 

BP 神经 网 络 采 用 的 激发 函数 为 什么 必须 是 连续 可 导 的 ? 
给 出 BP 算法 的 基本 步骤 及 计算 框图 。 

试 述 BP 算法 的 优 缺点 。 

试 述 RBF 神经 网 络 原理 及 计算 框图 。 

试 述 RBF 神经 网 络 的 优 缺点 。 

试 比较 BP 与 RBF 神经 网 络 的 性 能 。 

试用 BP 神经 网 络 解决 一 个 实际 环境 问题 。 

试用 RBF 神经 网 络 解决 一 个 实际 环境 问题 。 
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第 10 章 环境 空间 统计 分 析 


环境 信息 一 般 指 来 自 环境 保护 和 社会 相关 部 门 ， 采 用 一 定 的 技术 手段 或 方法 
采集 的 反映 环境 空间 系统 里 环境 质量 状况 、 污 染 物 排放 、 自 然 生态 和 环境 保护 工 
作 等 各 种 数据 资料 的 总 体 集合 。 可 以 被 认为 是 一 种 已 被 加 工 为 特定 形式 的 环境 数 
据 ， 或 是 一 组 表示 数量 、 行 动 或 目标 的 可 鉴别 的 符号 ， 它 可 以 是 数字 、 字 母 或 符 
号 ， 也 可 以 是 图 形 、 图 像 或 声音 等 ， 并 可 按 使 用 目的 组 织 成 结构 型 数据 库 或 非 结 
构 型 数据 库 。 环 境 信息 有 一 个 非常 突出 和 重要 的 特性 即 空间 性 。 据 统计 ， 环 境 信 
息 85% 以 上 都 与 空间 位 置 有 关 ， 可 以 把 具有 空间 属性 的 环境 信息 称 为 环境 空间 
信息 ， 它 是 具体 描述 地 球 环境 中 实体 的 空间 特征 、 属 性 特征 和 时 间 特 征 的 数据 集 
合 。 常 见 的 环境 空间 信息 有 污染 源 分 布 、 监 测 站 点 分 布 、 环 境 质量 的 空间 分 异 特 
征 等 。 环 境 空间 信息 来 源 繁 多 ， 结 构 多 样 ， 应 用 领域 非常 广泛 。 

本 章 的 主要 内 容 是 : 

@ 信息 与 数据 ; 

@ 环境 空间 信息 ; 

@ 环境 空间 统计 分 析 ; 

@@ 环境 空间 主 成 分 分 析 。 


信息 是 近代 科学 的 一 个 专门 术语 ,已 广泛 地 应 用 于 社会 各 个 领域 。 关 于 信息 
有 各 种 不 同 的 定义 ,狭义 信息 是 指 人 们 获得 信息 前 后 对 事物 认识 的 差别 ; 广义 信 
息 是 指 主体 (人 、 生 物 和 机 器 ) 与 外 部 客体 (环境 、 其 他 人 、 生 物 和 机 器 ) 之 间 相互 
联系 的 一 种 形式 ， 是 主体 和 客体 之 间 一 切 有 用 的 消息 和 知识 ， 是 表征 事物 特征 的 
一 种 普遍 形式 。 总 之 ， 信 息 是 向 人 们 或 机 器 提供 关于 现实 世界 各 种 事实 的 知识 ， 
是 数据 、 消 息 中 所 包含 的 意义 ， 它 不 随 载体 的 物理 形式 的 各 种 改变 而 改变 。 

数据 是 通过 数字 化 或 直接 记录 下 来 的 可 以 被 鉴别 的 符号 ， 不 仅 数字 是 数据 ， 
而 且 文字 、 符 号 和 图 像 也 是 数据 。 数 据 是 用 以 载荷 信息 的 物理 符号 ， 在 计算 机 化 
的 环境 信息 系统 中 ， 数 据 的 格式 往往 和 具体 的 计算 机 系统 有 关 ， 随 载荷 它 的 物理 
设备 的 形式 而 改变 。 数 据 只 有 对 实体 行为 产生 影响 时 才 成 为 信息 。 例 如 同样 的 数 
据 “1” 和 “0”， 当 用 来 表示 某 一 种 实体 在 某 个 地 域内 存在 与 否 时 ， 它 就 提供 了 
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有 (用 “1” 表 示 ) 无 (用 “0” 表 示 ) 的 信息 ; 在 绘图 矩阵 中 表示 绘 线 或 不 绘 线 时 ， 它 
就 提供 落笔 抬 笔 的 信息 。 

信息 与 数据 虽然 有 词义 上 的 差别 ， 但 两 者 是 不 可 分 离 的 ， 即 信息 是 数据 的 内 
涵 ， 数 据 是 信息 的 表达 。 环 境 信息 的 建立 和 进行 ， 就 是 信息 (或 数据 ) 按 一 定 方式 
流动 的 过 程 。 通 常情 况 下 ， 并 不 严格 地 区 分 “信息 ”和 “数据 ”两 个 术语 。 

环境 信息 是 指 表征 环境 系统 诸 要 素 的 数量 、 质 量 、 分 布 特征 、 相 互 关系 和 变 
化 规律 的 数字 、 文 字 、 图 像 和 图 形 等 的 总 称 ， 用 文字 、 数 字 、 符 号 、 图 像 等 不 同 
形式 定性 、 定 量 、 定 位 、 定 时 ， 可 视 化 地 全 面 表征 环境 的 这 些 属性 特征 。 环 境 信 
息 表 征 了 有 关 环 境 实体 的 性 质 、 特 征 和 变化 状态 ， 是 对 表达 环境 特征 与 现象 之 间 
关系 的 环境 数据 的 解释 。 

环境 空间 信息 是 指 具有 空间 坐标 的 环境 信息 ， 强 调 的 是 具有 空间 位 置 的 信 
息 ， 更 强调 信息 中 所 蕴含 的 内 容 和 属性 。 这 些 信息 (数据 ) 可 以 是 图 形 、 图 像 、 文 
字 、 表 格 和 数字 等 ， 通 过 数字 化 仪 、 扫 描 仪 、 键 盘 、 磁 带 机 或 其 他 系统 通讯 输入 
计算 机 ， 是 计算 机 所 表达 的 现实 世界 经 过 模型 抽象 的 实质 性 内 容 。 





10. 1.1 环境 空间 信息 特征 








环境 空间 信息 除了 具有 一 般 信 息 的 特征 之 外 ， 还 具有 一 些 区 别 于 其 他 信息 的 
特性 。 构 成 环境 空间 信息 的 特征 主要 有 : 

1. 空间 性 

空间 性 是 环境 空间 信息 最 主要 的 特性 。 环 境 空间 信息 描述 了 环境 空间 物体 的 
位 置 、 形 态 ， 甚 至 需要 描述 物体 的 空间 拓扑 关系 。 例 如 描述 一 条 河流 污染 ， 一 般 
数据 侧重 于 河流 的 污染 物 含量 等 ， 而 环境 空间 信息 则 要 附加 污染 源 的 位 置 等 和 空 
间 位 置 有 关 的 信息 。 复 杂 一 点 的 还 要 处 理 河流 与 流域 内 城市 间 的 距离 、 方 位 等 空 
间 关 系 。 空 间 性 是 空间 数据 区 别 于 其 他 数据 的 标志 特征 。 

2， 抽 象 性 

环境 空间 信息 描述 的 是 现实 世界 中 地 物 的 污染 特征 ， 自 然 界 中 地 物 非 常 复 
杂 ， 必须 经 过 抽象 处 理 。 不 同 主题 的 空间 数据 库 ， 人 们 所 关心 的 内 容 也 有 差别 ， 
所 以 环境 空间 信息 的 抽象 性 还 包括 人 为 地 取舍 数据 。 抽 象 性 还 使 数据 产生 多 语义 
问题 。 在 不 同 的 抽象 中 ， 同 一 自然 地 物 的 表示 可 能 会 有 不 同 的 语义 ， 如 河流 既 可 
以 被 抽象 为 水 系 要 素 ， 也 可 以 被 抽象 为 行政 边界 ， 如 省 界 ， 县 界 等 。 

3. 多 尺度 与 多 态 性 

不 同 的 观察 尺度 具有 不 同 的 比例 尺 和 不 同 的 精度 ， 同 一 地 物 在 不 同 的 情况 下 
就 会 有 形态 差异 。 
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4. 多 时 空 性 

环境 空间 数据 具有 很 强 的 时 空 特性 。 一 个 环境 空间 信息 系统 中 的 数据 源 既 有 
同一 时 间 不 同 空间 的 数据 系列 ， 也 有 同一 空间 不 同时 间 序列 的 数据 。 不 仅 如 此 ， 
环境 空间 信息 系统 会 根据 系统 需要 而 采用 不 同 尺 度 对 环境 空间 进行 表达 。 环 境 空 
间 数 据 是 包括 不 同时 空 和 不 同 尺 度数 据 源 的 集成 。 


10. 1.2 环境 空间 信息 种 类 











若 按照 环境 空间 信息 的 内 容 和 特性 分 类 ， 常 见 的 环境 空间 信息 有 以 下 五 种 ; 

(1) 环 境 监测 数据 。 主 要 包括 空气 质量 和 废气 监测 数据 、 降 水 监测 数据 、 地 
表 水 和 废水 监测 数据 、 土 壤 底 质 固体 废物 监测 数据 、 生 物 监测 数据 、 噪 声 振动 监 
测 数据 、 森 林 生态 系统 、 荒 漠 生 态 系统 、 农 业 生态 系统 监测 数据 、 生 态 破 坏 监测 
数据 、 化 学 污染 监测 数据 、 淡 水 监测 数据 、 湿 地 生态 监测 数据 、 海 洋 生 态 监 测 数 
据 等 。 

(2) 工 业 污 染 与 防治 数据 。 包 括 工业 污染 企业 基本 情况 、 工 业 污 染 物 排放 情 
况 、 固 体 废弃 物 排放 情况 、 工 业 污 染 治理 设施 情况 、 工 业 企 业 在 建 污染 治理 项 目 
情况 等 。 

(3) 生 活 及 其 他 污染 与 防治 数据 。 包 括 生 活 污水 排放 情况 、 城 市 污水 处 理 情 
况 、 生 活 废气 排放 情况 、 城 市 垃圾 处 理 情况 、 规 模 化 冀 禽 养殖 场 污染 排放 及 治理 
情况 等 。 

(4) 自 然 生态 环境 保护 数据 。 包 括 自然 保护 区 建设 情况 、 野 生动 植物 保护 情 
况 、 生 态 示范 区 建设 情况 、 农 村 环境 污染 及 治理 情况 等 。 

(5) 环 境 管理 数据 。 包 括 法 律 法 规 、 环 保 年 度 计划 执行 、 跨 世纪 绿色 工程 规 
划 执 行情 况 、 建 设 项 目 环境 影响 评价 、 三 同时 (同时 设计 、 同 时 施工 、 同 时 投入 
使 用 ) 执 行情 况 、 环 境 科技 工作 情况 、 环 保 产 业 情 况 、 环 保 系统 自身 建设 情况 等 。 


10. 1.3 环境 空间 信息 来 源 








1， 理 论 来 源 

信息 是 用 文字 、 数 字 、 符 号 、 语 言 、 图 像 等 介质 来 表示 事件 、 事 物 、 现 象 等 
的 内 容 、 数 量 或 特征 ， 从 而 向 系统 (人 们 ) 提 供 关 于 现实 世界 新 的 事实 和 知识 。 信 
息 具有 客观 性 、 实 用 性 、 可 传输 性 和 共享 性 等 特征 ， 它 是 事物 特征 及 事物 之 间 相 
互联 系 的 抽象 反映 。 这 种 反映 能 被 人 们 认识 和 理解 并 作为 知识 来 识别 事物 ， 从 而 
达到 认识 世界 、 改 造 世界 的 目的 。 因 此 ， 信 息 可 以 作为 生产 、 建 设 、 经 营 、 管 
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理 、 分 析 和 决策 的 依据 ， 成 为 了 当今 社会 和 未 来 社会 最 重要 的 战略 资源 。 

而 环境 信息 属于 空间 信息 ， 其 位 置 的 识别 是 与 数据 联系 在 一 起 的 。 环 境 信 息 
的 这 种 定位 特征 是 通过 经 纬 网 建立 的 环境 坐标 来 实现 空间 位 置 识别 的 。 环 境 信息 
还 具有 多 维 结构 的 特征 ， 即 在 二 维 空间 的 基础 上 实现 多 专题 的 第 三 维 结构 ， 而 各 
个 专题 型 、 实 体型 信息 之 间 的 联系 是 通过 属性 码 进行 的 。 这 就 为 环境 系统 综合 研 
究 提 供 了 可 能 ， 也 为 环境 系统 多 层次 的 分 析 和 信息 的 传输 与 筛选 提供 了 方便 。 环 
境 信息 的 时 序 特征 十 分 明显 ， 因 此 可 以 按照 时 间 尺 度 对 环境 信息 进行 划分 。 环 境 
信息 的 这 种 动态 变化 的 特征 ,一 方面 要 求 环境 信息 的 获取 要 及 时 ， 并 定期 更 新 ; 
另 一 方面 要 从 其 变化 过 程 中 研究 其 变化 规律 ， 从 而 做 出 对 环境 需求 的 预测 ， 为 科 
学 决策 提供 依据 。 认 识 环境 信息 的 这 种 区 域 性 、 多 层次 性 和 动态 变化 的 特征 对 建 
立 环境 信息 系统 ， 实 现 人 口 、 资 源 、 环 境 等 的 综合 分 析 、 管 理 、 规 划 和 决策 具有 
重要 意义 。 

2， 技 术 来 源 

“信息 ”这 一 词汇 作为 科技 术语 ，20 世纪 60 年 代 初期 开始 在 科技 文献 上 出 
现 ， 直 到 20 世纪 80 年 代 初期 ， 随 着 微型 计算 机 的 普及 ， 才 普遍 被 人 们 接受 。 从 
20 世纪 80 年 代 开始 ， 各 个 学 科 、 各 个 领域 主动 改变 研究 方式 ， 引 领 计算 机 向 着 
信息 化 方向 发 展 。 有 资料 表明 ， 现 今 的 计算 机 只 有 24% 的 工作 量 用 于 单纯 的 计 
算 ， 而 76% 的 工作 量 用 作 信息 的 存 取 、 检 索 与 处 理 。 

同一 类 信息 数据 在 计算 机 系统 安排 下 形成 数据 库 。 大 量 的 甚至 海量 的 数据 组 
织 在 一 起 有 一 个 管理 的 问题 ， 这 就 需要 有 相应 的 数据 库 管理 技术 。 计 算 机 的 发 明 
催生 了 数据 库 ， 计 算 机 软 、 硬 件 的 更 新 ， 推 动 着 数据 库 技术 变革 。 最 初 的 数据 库 
的 概念 只 是 指 一 个 数据 文件 或 一 个 数据 表格 ， 计 算 机 系统 对 文件 或 表格 的 容量 、 
数据 格式 的 限制 很 多 ， 修 改 、 编 辑 也 较 困难 。 随 着 系统 对 数据 库 允 许 的 数据 容量 
剧 增 ， 管 理 能 力 大 幅度 增强 ， 直 至 最 后 产生 关系 数据 库 ， 即 数据 库 管理 系统 在 指 
令 的 驱动 下 ， 可 以 对 数据 文件 集合 进行 一 致 性 的 数据 变更 维护 ， 即 对 有 相互 关联 
关系 的 多 个 数据 文件 表格 进行 自动 一 次 性 联动 变更 。 

计算 机 数据 库 为 人 们 从 大 量 的 信息 数据 库 中 快速 检索 、 提 取信 息 提供 了 极为 
便利 的 条 件 。 但 事物 是 相互 联系 、 相 互 作 用 的 ， 仅 静止 地 检索 出 某 一 条 孤立 的 信 
息 ， 往 往 会 使 这 一 信息 的 价值 受到 一 定 的 限制 ， 比 如 ， 我 们 如 果 仅 从 环境 信息 数 
据 库 中 检索 出 一 个 地 区 的 环境 类 型 、 地 区 的 降雨 量 、 地 区 的 植被 分 布 ， 这 些 信 息 
对 于 环境 的 科学 管理 仍然 是 不 够 的 。 我 们 需要 的 是 将 这 些 信息 加 以 综合 考虑 。 从 
事物 的 相互 联系 又 相互 作用 的 观点 出 发 ， 将 相互 作用 的 模式 分 析 推 导出 来 ， 以 计 
算 机 能 够 接受 的 形式 交付 计算 机 按照 这 种 模式 分 析 、 处 理 信息 ， 这 就 是 信息 系统 
所 要 完成 的 任务 。 
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经 过 近 几 十 年 的 发 展 ， 信 息 系统 已 经 成 为 一 个 独立 的 学 科 门 类 ， 并 有 多 个 分 
支 ， 环 境 信息 系统 就 是 其 中 的 典型 。 

3， 社 会 来 源 

信息 是 决策 和 管理 的 基础 ， 环 境 信息 是 环保 等 部 门 进行 决策 和 管理 的 主要 依 
据 。 环 保 部 门 的 决策 能 力 和 办 事 效率 在 很 大 程度 上 取决 于 信息 工作 的 水 平和 质 
量 。 而 信息 准确 可 靠 、 信 息 之 间 具 有 可 比 性 ， 在 很 大 程度 上 依赖 于 信息 本 身 的 标 
准 化 、 规 范 化 程度 。 

环境 保护 是 我 国 的 一 项 基本 国策 。 随 着 我 国 环境 保护 事业 的 发 展 ， 环 境 管 理 
工作 不 断 深化 ， 信 息 化 已 成 为 提高 环境 管理 与 决策 水 平 的 重要 技术 基础 。 环 境 信 
息 的 采集 面 越 来 越 广 ， 人 们 对 环境 信息 的 需求 量 也 越 来 越 大 ， 创 建 科学 、 合 理 的 
环境 信息 系统 已 成 为 必需 。 


空间 统计 学 (spatial statistics) 又 称 地 统计 学 (geostatistics) ， 是 近 几 十 年 来 发 
展 起 来 的 一 种 新 的 分 析 方法 ， 它 包括 空间 结构 分 析 、 克 立 格 分 析 、 空 间 自 相关 分 
析 以 及 空间 模拟 等 技术 ， 用 于 分 析 具 有 空间 坐标 的 变量 的 空间 特征 ， 并 可 进行 过 
程 模拟 以 及 空间 插值 等 。 

室 间 统计 学 是 以 区 域 化 变量 理论 (theory of regionalized variable) 为 基础 ， 以 
变 差 函数 (variogram) 为 基本 工具 来 研究 那些 分 布 于 空间 并 呈现 出 一 定 的 随机 性 
和 结构 性 的 自然 现象 的 科学 (A. G. 侨 尔 奈 耳 等 ，1982; 王仁 铎 等 ，1988; 孙 洪 
泉 ，1990)。 显 然 ， 凡 是 要 研究 某 些 变量 (或 特征 ) 的 空间 分 布 特性 并 对 其 进行 最 
优 估计 ， 或 要 模拟 所 研究 对 象 的 离散 性 、 波 动 性 或 其 他 性 质 时 都 可 应 用 空间 统计 
学 的 理论 与 方法 。 

空间 统计 学 是 数学 地 质 领域 中 一 门 发 展 迅速 且 有 着 广泛 应 用 前 景 的 新 兴 科 
学 统计 学 的 基本 思想 从 20 世纪 50 年 代 初 开始 提出 ， 经 过 广大 数学 地 质 工 
作者 、 空 间 统 计 学 工作 者 、 矿 山地 质 和 采矿 设计 专家 及 其 他 空间 统计 学 应 用 者 和 
爱好 者 的 不 断 努 力 ， 现 在 已 经 形成 了 一 套 独立 的 理论 体系 ， 成 为 数学 地 质 中 比较 
活跃 的 一 个 分 支 (M. Guarascio 等 ，1975; F. P. 阿 格 特 伯 格 ，1980; M. 戴 维 ， 
1989)。 空 间 统计 学 在 国内 外 诸多 领域 的 生产 实践 中 表明 ， 除 了 在 找 矿 勘探 、 矿 
体 圈定 、 储 量 计算 、 采 矿 设计 、 矿 山 生 产 及 地 学 科研 等 方面 具有 明显 的 优越 性 
外 ,在 石油 地 质 、 生 物 学 、 生 态 学、 岩石 学 、 地 球 化 学 、 地 震 地 质 、 海 洋 地 质 、 
农业 、 水 文 、 古 气候 、 古 地 理 、 气 象 学 、 遥 感 地 质 、 环 境 、 林 业 、 医 学 等 许多 方 
面 都 有 成 功 应 用 的 实例 ( 於 崇 文 等 ，1980; 侯 景 儒 等 ，1982; 侯 景 侍 等 ，1993 
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王政 权 ，1999)。 因 此 ， 在 不 到 50 年 的 研究 和 实践 中 ， 空 间 分 析 的 应 用 已 被 扩展 
到 分 析 各 种 自然 现象 的 空间 异 质 性 (spatial heterogeneity) 和 空间 格局 (spatial pat- 
tern)。 环 境 空间 统计 分 析 就 是 应 用 空间 统计 学 的 理论 和 方法 处 理 环境 空间 信息 
的 过 程 。 


10.2.1 区 域 化 变量 


当 一 个 变量 呈现 为 空间 分 布 时 ， 就 称 之 为 区 域 化 变量 (regionalized varia- 
ble)。 这 种 变量 常常 反映 某 种 空间 现象 的 特征 ， 用 区 域 化 变量 来 描述 的 现象 称 之 
为 区 域 化 现象 (I. Clark，1981)。 例 如 ， 地 质 学 、 地 理学 、 水 文学 、 土 壤 学 、 生 
态 学 中 的 许多 变量 都 具有 空间 分 布 的 特点 ， 这 些 变 量 实质 上 都 是 区 域 化 变量 。 

区 域 化 变量 ， 亦 称 区 域 化 随机 变量 ，G. Matheron 将 它 定义 为 以 空间 点 x 的 
三 个 直角 坐标 x,，z,，z 为 自 变量 的 随机 场 Z(x)= 二 ZCz,，x,，z,,)。 区 域 化 随 
机 变量 与 普通 随机 变量 不 同 ， 普 通 随机 变量 的 取 值 符合 某 种 概率 分 布 ， 而 区 域 化 
随机 变量 则 根据 其 在 一 个 场 内 的 位 置 不 同 而 取 值 。 也 就 是 说 ， 区 域 化 随机 变量 是 
普通 随机 变量 在 一 个 场 内 确定 位 置 上 的 特定 取 值 ， 它 是 与 位 置 有 关 的 随机 函数 ， 
在 对 所 研究 的 空间 对 象 进行 一 次 抽样 或 随机 观察 后 就 得 到 它 的 一 个 Z(x)， 它 是 
-个 普通 的 三 元 实 值 函数 ， 或 者 说 是 空间 的 点 函数 。 因 此 ， 区 域 化 变量 具有 两 方 
面 的 含义 ， 即 观测 前 Z(x) 是 一 个 随机 变量 ， 观 测 后 则 是 一 个 普通 的 空间 三 元 函 
数值 或 空间 点 函数 值 。 

区 域 化 变量 Z(x) 具 有 两 个 最 显著 、 最 重要 的 特征 ， 即 随机 性 和 结构 性 。 正 
是 这 两 种 性 质 使 区 域 化 变量 在 研究 自然 现象 的 空间 结构 和 空间 过 程 方面 具有 独特 
的 优势 。 首 先 ， 区 域 化 变量 是 一 个 随机 函数 ， 它 具有 局 部 的 、 随 机 的 、 异 常 的 性 
质 ; 其 次 ， 区 域 化 变量 具有 一 般 的 或 平均 的 结构 性 质 ， 即 变量 在 点 x 与 偏离 空间 
距离 为 h 的 点 x 十 h 处 的 数值 Z(x) 与 Z(x 十 有 ) 具 有 某 种 程度 的 自 相 关 ， 这 种 自 相 
关 依 赖 于 两 点 间 的 距离 及 变量 特征 ， 这 就 体现 了 其 结构 性 。 此 外 ， 区 域 化 变量 
还 具有 空间 的 局 限 性 、 不 同 程度 的 连续 性 和 不 同 程度 的 各 向 异性 等 特征 。 

由 于 区 域 化 变量 具有 上 述 特点 ,需要 有 一 种 合适 的 函数 或 模型 来 描述 ， 这 种 
函数 和 模型 既 能 兼顾 到 区 域 化 变量 的 随机 性 ， 又 能 反映 它 的 结构 性 。 这 可 以 通过 
描述 空间 变异 性 的 空间 协 方差 函数 和 变 差 函数 来 实现 。 
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10. 2.2 协 方差 画 数 


1， 协 方差 函数 的 概念 
区 域 化 随机 变量 之 间 的 差异 ， 可 以 用 空间 协 方差 来 表示 。 协 方差 又 叫做 半 方 
是 空间 统计 学 中 的 关键 概念 。 
在 概率 论 中 ， 随 机 向 量 (z，y) 的 协 方差 被 定义 为 : 
Cov(z, »)=E[(z—E(z))(y—E(y))] (10.1) 
区 域 化 变量 ZC(x) 二 Z(z,，z。，z) 在 空间 点 x 和 x 十 h 处 的 两 个 随机 变量 
Z(x) 和 Z(x 十 h) 的 二 阶 混合 中 心 矩 定义 为 Z(x) 的 自 协 方差 函数 ， 即 : 
CovLZCx), ZCx+h)]=ELZ(x)Z(x+h)]—ELZ(x) JELZ(x+h)] (10. 2) 
区 域 化 变量 ZCx) 的 自 协 方差 函数 ， 也 简称 为 协 方差 函数 。 一 般 来 讲 ， 它 是 
一 个 依赖 于 空间 点 x 和 向 量 h 的 函数 。 
2， 协 方差 函数 的 计算 公式 
设 Z(x) 为 区 域 化 随机 变量 ， 并 满足 二 阶 平稳 假设 ， 即 随机 函数 ZCx) 的 空间 
分 布 规律 不 因 位 移 而 改变 ，h 为 两 样本 点 空间 分 隔 距 离 或 距离 灌 后 ，Z(xi) 为 
Z(x) 在 空间 位 置 x 处 距离 偏 移 h 的 实测 值 (i 二 1，2，…，N(h))， 根 据 协 方差 函 
数 的 定义 ， 可 得 协 方差 函数 的 计算 公式 为 : 


Ne 
CO = Ny 忆 [ZGa) 一 Zn)][ZCx 十 内 一 2(x 十 罗 ] 《10.3) 
| 


式 中 ，N( 有 ) 是 分 隔 距 离 为 h 时 的 样本 点 对 总 数 ，Z(xi) 和 ZOxi 十 有 ) 分 别 为 ZCxi) 
和 Z(x; 十 有) 的 样本 平均 数 ， 即 : 
Zr) = 调 2Z) (10.4) 








有 


1 由 
N 人 2061 (10. 5) 


在 式 (10. 4) 一 (10.5) 中 ，N 为 单元 样本 数 。 一 般 情况 下 ，Z(xi;) 隆 2(x; 十 h) (特殊 
情况 下 可 以 认为 近似 相等 )。 若 ZCx;) 二 ZCxi 十 有 ) 二 m( 常 数 )， 则 式 (10. 3) 可 以 改 
写 为 : 


Z(xi+h) = 


Nh 
Ch) = BD LZ)Z; + I—m (10. 6) 
名 


N(h) 
式 中 ,rm 为 样本 平均 数 ， 可 由 一 般 算术 平均 数 公 式 求 得 ， 即 : 
m 一 起 ZCx) (10.7) 
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10.2.3 ” 变 差 画 数 


10.2.3.1 二 阶 平稳 假设 和 本 征 假设 


1. 平稳 假设 (stationarity assumption) 
(1) 严格 的 平稳 假设 : 假设 区 域 化 变量 Z(x) 的 任意 维 分 布 函 数 均 不 因 空 间 
点 发生 位 移 h 而 改变 ， 即 : 
Fa a (By Ves "5 ns) 
=P{Z(x)<z, Z(x2) ZL, Zr) zs) 
=P{Z(x+h)<z, Z(xeth)<e, 0 ZX th) } (10. 8) 
=Fs thnthes HZ Cas 0 9 Vn Vhs Vx, Xe Xn 
则 称 该 区 域 化 变量 Z(x) 为 平稳 性 随机 函数 。 确 切 地 说 ， 无论 位 移 向 量 h 多 大 ， 两 
个 nn 维 区 域 化 变量 {ZCx),，Z(x2),，…， ZCx)) 和 {ZCx 十 h),， ZCx 十 h)，…*， 
Z(x, 十 有 )}) 具 有 相同 的 分 布 律 。 然 而 这 种 假设 条 件 性 太 强 ， 至 少 要 求 Z(x) 的 各 阶 
和 矩 均 存 在 ， 实 际 上 很 难 满足 ， 且 也 不 好 验证 ， 故 实用 上 不 采用 这 种 假设 。 在 线性 
空间 统计 学 研究 中 ， 主 要 研究 方差 ， 为 了 统计 推断 的 需要 ， 我 们 只 需 假设 Z(x) 
的 一 、 二 阶 矩 存在 且 平稳 就 够 了 。 故 在 实际 应 用 中 常用 另 一 种 弱 平稳 假设 ， 或 称 
为 二 阶 平稳 假设 (second order stationarity assumption) 。 
(2) 二 阶 平稳 假设 ， 当 区 域 化 变量 Z(x) 满 足下 面 两 个 条 件 时 ， 则 称 该 区 域 化 
变量 为 二 阶 平稳 的 。 
Oz 在 整个 研究 区 内 ， 区 域 化 变量 Z(x) 的 数学 期 望 对 任意 x 存在 且 等 于 常数 ， 
即 : 
E[Z(x)]==m( 常 数 )，Y x (10. 9) 
@ 在 整个 研究 区 内 ， 区 域 化 变量 Z(x) 的 协 方差 函数 存在 且 平 稳 ( 即 只 依赖 于 
基本 步 长 h， 而 与 x 无 关 )， 用 式 子 表达 ， 即 ; 
CovLZ(x), Z(x+h)]=ELZ(x)Z(x+h)]—ELZ(x)JELZ(x+h)] 
=ELZC)Z(x+h)]—m SC) 
一 ELZCz)ZCz 十 站] 一 =C(h), Vx, Vh 
(10. 10) 
当 j 一 0 时， 上 式 变 为 : 
D[Z(x)]=C(0), Vx (10.11) 
此 式 说 明 : 方差 函数 也 存在 ， 且 为 常数 C(0)。 
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这 说 明 协 方差 平稳 意味 着 方差 和 变 差 函数 平稳 ， 从 而 有 关系 式 : 
CC 一 CC0) 一 xzCp) (10. 12) 
同时 还 说 明 ， 在 二 阶 平稳 假设 条 件 下 ， 协 方差 函数 和 变 差 函数 都 表示 相距 为 疡 的 
两 个 变量 ZCx) 和 ZCx 十 h) 之 间 的 自 相 关 特 性 ， 这 时 它们 两 个 是 等 效 的 函数 。 这 
样 就 可 以 定义 出 第 三 个 空间 函数 ， 即 空间 相关 函数 (correlogram)， 简 称 相关 函 
数 ， 记 为 p(h)， 即 : 


一 Ca 2h) 
PD— E00) = E00) (10.13) 


在 实际 工作 中 ， 有 时 连 二 阶 平稳 假设 的 要 求 也 不 能 满足 (如 协 方差 函数 或 方 
差 函数 不 存在 等 ) 。 例 如 ， 一 些 自然 现象 和 随机 函数 ， 它 们 具有 无 限 离散 性 ， 即 
无 协 方差 及 先 验方 差 .但 却 有 变 差 函数 ， 这 时 ， 我 们 可 以 放宽 条 件 ， 如 只 考虑 品 
位 的 增 量 而 不 考虑 品位 本 身 ， 于 是 导致 本 征 假设 ， 即 内 蕴 假 设 。 

2， 本 征 假 设 (intrinsic assumption， 内 蕴 假 设 ) 

当 区 域 化 变量 Z(x) 的 增 量 [Z(x) 一 ZCx 十 h)] 满 足下 列 两 个 条 件 时 , 称 其 为 满 
足 本 征 假设 ,或 简单 地 说 它 是 本 征 的 : 

(1) 在 整个 研究 区 内 ， 区 域 化 变量 Z(x) 的 增 量 [Z(x) 一 ZCx 十 h)] 的 数学 期 望 
对 任意 的 x 和 hh 都 存在 且 等 于 零 ， 即 : 

ELZ(x)—Z(x+h)]=0, Vx, Vh (10. 14) 

(2) 在 整个 研究 区 内 ， 区 域 化 变量 Z(x) 的 增 量 [ZCx) 一 ZCx 十 h)] 的 方差 函数 
存在 且 平 稳 ， 即 : 

DLZCx)—ZCx+h)]=ELZ(x) —Z(x+h)] 
=2y(x, h) 
=2yCh), Vx, Vh (10. 15) 
即 要 求 Z(x) 的 变 差 函 数 7Y(h) 存 在 且 平 稳 。 

本 征 假设 可 以 理解 为 ， 区域 化 变量 Z(x) 的 增 量 [ZCx) 一 ZCx 十 有 )] 只 依赖 于 
分 割 它 们 的 向 量 h( 模 和 方向 ) 而 不 依赖 于 x 的 具体 位 置 ， 这样 ， 被 向 量 有 分 割 的 
每 一 对 数据 [Z(x)，Z(x 十 h)] 可 以 看 成 是 一 对 随机 变量 [ZCx)，Z(x2)] 的 一 个 不 
同 实现 。 

3， 二 阶 平稳 假设 与 本 征 假设 之 比较 

二 阶 平稳 假设 与 本 征 假设 比较 的 总 结论 是 .二 阶 平稳 假设 较 强 ， 本 征 假设 较 
弱 。 满 足 二 阶 平稳 假设 的 区 域 化 变量 必定 满足 本 征 假设 ; 满足 本 征 假设 的 区 域 化 
变量 ， 却 不 见得 满足 二 阶 平稳 假设 。 故 满足 本 征 假设 的 区 域 化 变量 要 广 一 些 ， 多 
一 些 
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4.。 准 二 阶 平稳 假设 和 准 本 征 假 设 

在 实际 应 用 中 ， 往 往 遇 到 这 样 的 情况 ， 即 区 域 化 变量 Z(x) 在 整个 区 域内 并 
不 满足 二 阶 平稳 假设 (或 本 征 假 设 )， 但 在 有 限 大 小 的 邻 域 ( 例 如 ， 以 x 点 为 中 心 ， 
以 a 为 半径 的 球 或 圆 ) 内 是 二 阶 平稳 (或 本 征 ) 的 ， 则 称 此 区 域 化 变量 Z(x) 是 准 二 
阶 平稳 (或 准 本 征 ) 的 。 

这 种 假设 虽 是 一 种 折 囊 方案 ， 但 在 现实 中 能 满足 的 往往 就 是 这 种 假设 ， 而 且 
在 实际 空间 统计 学 计算 中 这 种 假设 也 够 用 了 。 不 过 这 种 假设 涉及 到 有 限 邻 域 的 大 
小 应 如 何 确定 的 问题 。 邻 域 确定 大 了 ， 往往 不 易 满足 准 二 阶 平稳 (或 准 本 征 ) 假 设 
条 件 ， 邻 域 确定 小 了 ， 虽 能 满足 假设 条 件 ， 但 邻 域内 信息 数据 点 就 少 了 ， 又 不 利 
于 进行 统计 判断 。 故 在 确定 合适 的 邻 域 大 小 时 要 兼顾 上 述 两 个 方面 。 

以 后 我 们 在 讨论 线性 平稳 空间 统计 学 时 ， 都 至 少 假定 Z(x) 满 足 准 二 阶 平稳 
假设 条 件 或 准 本 征 假设 条 件 。 

有 了 这 种 假设 ， 我 们 便 可 根据 对 Zr 和 ZCx 十 有 (一 1，2，…，72) 的 数 
值 ， 通 过 求 某 种 平均 数 的 办 法 来 估计 变 差 函数 值 了 。 
10.2.3.2 变 差 函数 

国政 

将 环境 空间 信息 看 作成 随 空间 位 置 x 而 变化 的 区 域 化 变量 ZCx) (为 讨论 问题 
方便 不 妨 设 ZCz) 定 义 在 一 维 坐标 轴 上 )， 那 么 ， 当 空间 点 x 在 一 维 x 轴 上 变化 
时 ， 区 域 化 变量 Z(x) 在 点 x 和 x 十 h 处 的 值 Z(x) 与 Z(x 十 有 ) 之 差 的 方差 的 一 半 定 
义 为 区 域 化 变量 Z(x) 在 x 轴 方 向 上 的 变 差 函数 ， 记 作 Y(x， 加 。 即 : 


yx, WD)= 吉 DLZ()—Z(x+h)] (10.16) 
根据 协 方差 函数 的 理论 ， 变 差 函 数 可 以 展开 为 : 
YCx, h)= 直 DLZ(x) —Z(x+h)] 








= 二 ELZCD 一 ZCe 十 癌 了 一 去 (ELZCO] 一 ELZCx 二 和] 


(10.17) 
在 实际 的 空间 统计 学 研究 中 ， 多 要 作 一 些 假设 。 通 常 是 作 二 阶 平稳 假设 或 作 

本 征 假设 。 在 这 两 种 假设 下 均 有 : 
ELZ(x+h)J=E[LZ(x)], Vh (10. 18) 

因此 ， 式 (10. 17) 就 可 以 简化 为 : 


Ylx, 闪 一 二 ELZC9) Zt (10. 19) 
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这 是 空间 统计 学 中 最 常用 的 基本 公式 之 一 。 

从 式 (10.19) 中 可 以 看 出 ，Y(x，) 一 般 是 依赖 于 x 和 hh 两 个 自 变量 的 。 当 变 
差 函 数 y(x*，j) 仅 依赖 于 h( 基 本 步 长 或 基本 滞后 ) 而 与 位 置 x 无 关 时 ， 则 可 把 变 
差 函 数 Y(x， 有 写成 Y(h)， 即 : 


YW)=BELZ) 一 ECz 十 四 了 (10. 20) 


此 时 ， 以 为 横 坐 标 ， 以 YCh) 值 为 纵 坐 标 作出 的 图 形 就 叫 变 差 图 。 故 变 差 
函数 与 变 差 图 严格 说 来 ， 还 是 有 区 别 的。 但 当 变 差 函 数 yx(x， 加 不 依赖 于 x 时， 
这 两 者 就 是 一 样 的 ， 只 不 过 一 个 代表 函数 关系 式 ， 另 一 个 表示 其 函数 的 图 形 
婴 了 。 

如 果 ZCx) 是 定义 在 二 维 ( 或 三 维 ) 空 间 中 的 区 域 化 变量 ， 则 x 是 二 维 ( 或 三 
维 ) 空 间 中 的 点 , h 是 二 维 (或 三 维 ) 空 间 中 的 向 量 (此 时 ，z, hh 本 应 写成 x，h， 
为 了 简化 ， 在 不 致 发 生 混淆 处 ， 就 写成 标量 形式 )。 此 时 ， 就 要 考虑 二 维 ( 或 三 
维 ) 变 差 函 数 了 。 

2， 实 验 变 差 函 数 

在 实际 工作 中 ， 要 对 区 域 化 变量 Z(z) 做 变异 性 分 析 ， 通 常 是 先 求 出 实验 变 
差 函 数 ， 然 后 再 用 理论 模型 拟 合 ， 得 到 最 终 的 变 差 函数 公式 。 对 于 离散 点 的 情 
况 ， 由 于 有 了 ( 准 ) 二 阶 平稳 假设 或 ( 准 ) 本 征 假设 ， 我 们 可 以 把 在 工 轴 上 相隔 为 





的 Ni 对 点 和 zi 十 Ri 一 1，2，…，NCD) 处 的 NGC 对 观测 值 ZCzi) 和 
Z(zi 十 有 D (i 二 1，2，…，N(h)) 看 成 是 ZCr) 和 ZCz 十 h) 的 NC(h) 对 实现 。 其 实验 
变 差 函数 的 基本 公式 为 : 

和 a sy 

7" (hh) 三 DN 2 LZ) Zz th (10, 21) 


这 样 ， 对 于 不 同 的 空间 分 隔 距 离 h， 根 据 式 (10. 21) 可 计算 出 相应 的 y" (1) 值 
来 。 这 就 是 计算 实验 变 差 函 数 的 最 基本 的 公式 。 经 计算 后 ， 得 出 诸 对 h，y*() 值 ， 
在 /一 六 (1) 直 角 和 坐标 上 标 出 诸 点 Ch，Y* (1)) 来 ， 再 将 相 邻 各 点 用 直线 段 连接 起 来 ， 
就 得 到 实验 变 差 函数 图 (或 称 实验 变 差 图 )。 这 样 的 曲线 图 可 以 直接 地 展示 参数 区 域 
化 变量 Z(z) 的 空间 变异 特点 ， 是 空间 变异 分 析 和 结构 分 析 的 有 效 工具 。 

3. 变 差 函 教 的 理论 模型 

由 区 域 化 变量 理论 和 变 差 函 数 的 性 质 可 知 ， 实 际 上 ， 理 论 变 差 函 数 模型 是 未 
知 的 ， 往 往 要 从 有 效 的 空间 取样 数据 中 去 估计 ， 对 各 种 不 同 的 h 值 可 以 计算 出 一 
系列 y(h) 值 。 到 目前 为 止 ， 空间 统计 学 将 这 些 模 型 分 为 三 大 类 : 第 一 类 是 有 基 
台 值 模型 ， 包 括 球状 模型 、 指 数 模型 、 高 斯 模型 、 线 性 有 基 台 值 模型 和 纯 块 金 效 
应 模型 : 第 二 类 是 无 基 台 值 模型 ， 包 括 短 函 数 模型 、 线 性 无 基 台 值 模型 、 抛 物 线 
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模型 ; 第 三 类 是 孔 穴 效应 模型 。 下 面 有 代表 性 地 介绍 几 种 常见 的 变 差 函数 理 
论 模型 。 

(1) 纯 块 金 效应 模型 。 其 一 般 公式 为 : 

_[0 (=0) 
7 (10. 22) 

式 中 ，c 二 0， 为 先 验方 差 。 该 模型 相当 于 区 域 化 变量 为 随机 分 布 ， 样 本 点 间 的 
协 方差 函数 对 于 所 有 距离 h 均等 于 0， 变 量 的 空间 相关 不 存在 。 

(2) 球状 模型 。 其 一 般 公 式 为 : 


0 Ch=0) 
YXD=1o+c( 半 一 拓 ) (0<h<a) (10.23) 
co 十 c (h>a) 


式 中 ，co 为 块 金 (效应 ) 常 数 ，c 为 拱 高 ，co 十 c 为 基 台 值 ，a 为 变 程 。 当 c=0， 
< 一 1 时 ， 称 为 标准 球状 模型 。 球 状 模型 是 空间 统计 分 析 中 应 用 最 广泛 的 理论 模 
型 ， 许 多 区 域 化 变量 的 理论 模型 都 可 以 用 该 模型 去 拟 合 。 
(3) 指数 模型 。 其 一 般 公式 为 : 
0 (h=0) 
| (10. 24) 
cote(l—e*) (h>0) 
式 中 ,co 和 < 意义 与 前 相同 ,但 a 不 是 变 程 。 当 h=34 时 , 1 一 e 二 1 一 e 之 
0.95<:1， 即 ，y(3a)<“co 十 c， 从 而 指数 模型 的 变 程 a’ 约 为 34a， 当 co 二 0,， c= 二 1 
时 ， 称 为 标准 指数 模型 。 
(4) 高 斯 模型 。 其 一 般 公 式 为 : 


0 (h=0) 
zx (10. 25) 
cotc(1—e $s) (h>0) 
式 中 ，c 和 上 意义 与 前 相同 ，a 也 不 是 变 程 。 当 h=V34 时 ,1 一 e “一 1 一 ce 和 
0.95<z1,， 即 y(V3a)=:co 十 c， 因 此 高 斯 模型 的 变 程 w 约 为 3a。 当 co 王 0，c=1 
时 ， 称 为 标准 高 斯 函数 模型 。 
(5) 宕 函数 模型 。 其 一 般 公式 为 ; 

Y=Ah (0<0<2) (10. 26) 
式 中 ，0 为 寡 指 数 。 当 0 变化 时 ， 这 种 模型 可 以 反映 在 原点 附近 的 各 种 性 状 。 但 
是 9 必须 小 于 2， 车 02， 则 函数 yX( 一 站 不 再 是 一 个 条 件 非 负 定 函数 了 ， 也 就 是 
说 它 已 经 不 能 成 为 变 差 函数 了 。 
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(6) 对 数 模型 。 其 一 般 公 式 为 : 
7Y(h)=Algh (10. 27) 
显然 ， 当 人 =>0，lg /~ 一 c"， 这 与 变 差 函 数 的 性 质 Y(h) 宇 0 不 符 。 因 此， 对 
数 模型 不 能 描述 点 支撑 上 的 区 域 化 变量 的 结构 。 
(7) 线性 有 基 台 值 模型 。 其 一 般 公 式 为 : 





co (h=0) 
ro (0<h<a) (10. 28) 
cte (h>a) 
该 模型 的 变 程 为 a， 基 台 值 为 十 c。 
(8) 线性 无 基 台 值 模型 。 其 一 般 公式 为 : 
co (h=0) 
xD 一 | (10. 29) 
Ah (h>0) 
该 模型 没有 基 台 值 ， 也 没有 变 程 。 

在 这 些 变 差 函数 的 理论 模型 中 ， 最 常用 的 是 球状 模型 ， 球 状 模型 曲线 如 图 
10-1 所 示 。 

变 差 函数 是 空间 统计 学 的 主要 工具 ， 有 了 变 差 
函数 ， 就 可 以 应 用 空间 统计 学 的 理论 和 方法 对 环境 (| 
空间 污染 物 的 空间 分 布 进行 研究 了 。 装 ==s 

4.。 变 差 函 数 的 参数 最 优 估计 

变 差 函 数 的 理论 模型 主要 是 曲线 模型 ， 将 曲线 
模型 经 过 适当 的 变换 ， 化 为 线性 模型 ， 然 后 用 最 小 ei 
二 乘法 原理 进行 未 知 参数 的 估计 。 表 10. 1 是 空间 。 图 10-1 球状 模型 曲线 
统计 学 中 常用 的 变 差 函 数理 论 模型 经 过 适当 变换 后 化 为 的 线性 模型 。 对 于 球状 模 
型 、 指 数 模型 和 高 斯 模型 而 言 ， 只 讨论 0<<h<a 时 的 拟 合 问题 。 对 变换 后 的 变 差 
函数 理论 模型 ， 除 球状 模型 为 二 元 线性 回归 模型 外 ， 其 余 均 为 一 元 线性 回归 模 
型 。 根 据 最 小 二 乘法 原理 对 这 两 类 线性 回归 模型 进行 参数 估计 计算 。 





1 
1 
1 
1 
1 
a 








表 10.1 常用 变 差 函数 理论 模型 的 线性 变换 
变 差 函数 理论 模型 变换 变换 后 的 线性 模型 
球状 模型 Y=y, = 


了 三 
a+c( 如 一 认 ) (0<h<o) 


0 (h=0) A 

hn oh ymatba 
7(1)= 
wote (h>a) 


局 =zxe， 一 扣 
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续 表 
变 差 函数 理论 模型 变换 变换 后 的 线性 模型 
指数 模型 YD)=y, et =z 
本 (h=0) G+c= y= 加 十 bz 
XD= 
ctel(l—e$) (h>0) 一 < 一 入 
高 斯 模型 HD=y, er 一 
人 下 全 ”外 aa 十 c= 和 y=bh thr 
7 月 一 
late(1-es) w>o0 = 


在 空间 统计 学 的 理论 模型 中 ， 只 有 球状 模型 线性 化 后 成 为 二 元 线性 回归 模 
型 。 它 共有 三 个 参数 各， 刀 和 ba。 如 果 采 用 最 简单 的 最 小 二 乘法 来 作 最 优 参 数 
估计 ， 方法 比较 方便 ,但 结果 得 到 的 变 差 函 数理 论 模型 曲线 有 时 并 不 十 分 满意 ， 
主要 是 对 实际 变 差 函数 曲线 中 头 几 个 点 的 重要 性 认识 不 够 。 实 际 上 ， 变 差 函 数 曲 
线 上 头 几 个 点 ( 即 在 原点 附近 的 几 个 点 ?的 重要 性 远大 于 曲线 其 他 点 的 重要 性 。 不 
应 该 把 它们 与 其 他 实际 变 差 函数 曲线 上 的 点 平等 对 待 。 在 原点 附近 的 几 个 点 都 在 
变 程 范围 内 ， 在 反映 变量 的 空间 自 相关 性 方面 极为 重要 。 为 了 克服 这 个 问题 ， 采 
用 加 权 回 归 的 方法 比较 合适 ， 拟 合 度 较 高 。 权 重 系数 主要 是 采用 每 一 距离 上 的 样 
本 对 数 N(hi)。 因 此 ， 采 用 加 权 多 项 式 回归 方法 进行 二 元 线性 回归 模型 的 参数 估 
计 。 设 二 元 线性 回归 模型 为 : 

y=bo tbizi t+ br (10. 30) 
式 中 ，b。，b 和 本 为 待 估 参 数 ， 加 权 最 小 二 乘法 的 参数 最 优 估计 公式 是 : 
b=y—b T1—bs Xs 
os tne tet (10. 31) 
b=(LzLun—LyLa)/ (LuLz—LLa) 





y= SNDy/ TNO) 
各 名 
2 一 六 Nooza/ SN) 
i=l i=l 
Zz 一 FN za/ PNG) 
名 二 


Lu = >) NGCzE 一 五 六 
各 
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De DN es 一 元) 

Te DNV a Cen i) 
Ee 3 NOC 

Lh DN Ce 


= DN 


计算 出 pm， 包 和 饭 后 还 要 分 三 种 情况 加 以 讨论 。 
(1) 加 之 0， 已 二 0， 饭 <0， 此 时 球状 模型 中 三 个 参数 co。，c 和 a 分 别 为 : 


co 一 加 
= 
OW Bb (10. 32) 
-2 /—h 
c=2 /二 和 
3 3b; 


这 三 个 参数 为 最 优 拟 合 球状 模型 时 的 三 个 参数 。 

(2)bo 二 0， 之 0， by 二 0， 此 时 如 二 0， 即 co 二 0， 不 符合 球状 模型 的 要 求 ， 
可 设 加 二 0， 这 时 式 (10. 31) 为 y= 二 bz 十 byzz， 重 新 根据 最 小 二 乘法 求 出 参数 h 
和 bs， 在 如 二 0 的 条 件 下 仍 可 求 出 co，c 和 a 三 个 参数 。 

(3) 加 二 0， 包 过 0， 乌 过 0， 此 时 应 分 两 种 情况 ， 一 种 是 包 王 0， 二 元 线性 回归 
模型 (10. 30) 变 为 > 一 名 十 和 zi， 为 一 元 线性 模型 ， 而 不 是 球状 模型 ， 可 按 一 元 线 
性 回归 模型 参数 估计 的 方法 求解 其 参数 ; 另 一 种 是 5 二 0， 这 时 对 原始 数据 进行 
调整 ， 增 加 或 删 减 一 些 不 重要 的 实际 变 差 函 数 点 的 数据 ， 反 复 多 次 地 调整 ， 直 到 
如 二 0 时 为 止 ， 然 后 代入 式 (10. 12), 求 出 co，c 和 a 三 个 参数 。 

5， 回 归 模 型 的 检验 

通过 样本 数据 建立 变 差 函数 理论 模型 ， 仅 仅 进行 参数 的 最 优 估 计 是 不 够 的 ， 
还 必须 对 回归 模型 进行 显著 性 检验 ， 这 样 才能 使 变 差 函 数理 论 模型 有 意义 。 

(1) 用 残 差 平方 和 或 标准 误差 检验 回归 模型 方程 的 显著 性 

实际 观测 值 y 和 理论 模型 计算 出 的 理论 值 y 之 差 ， 即 (> 一 y) 称 为 残 差 ， 残 差 
平方 和 方程 为 : 





Q= 2 G3) (10. 33) 
2 
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其 回归 估计 的 标准 误差 为 : 


站 
i pe ep td (10. 34) 


残 差 平方 和 或 标准 误差 愈 小 ， 说 明 实 际 观测 值 与 回归 线 愈 靠近 ， 拟 合 的 曲线 
与 实际 配合 愈 好 ; 反之， 说 明 配 合 的 理论 曲线 与 实际 误差 较 大 。 因 此 ， 残 差 平方 
和 或 标准 误差 的 值 是 回归 曲线 的 重要 参数 。 

(2) 回 归 模 型 的 下 检验 

在 线性 回归 条 件 下 ， 总 平方 和 可 以 分 解 为 残 差 平方 和 与 回归 平方 和 两 部 
分 ， 即 : 


























2 一 区 :一 Py) + DO— (10. 35) 
人 名 各 
这 样 可 构成 一 个 正统 计量 ， 即 : 
DC—WD /ko 
= 上 (10. 36) 
Dy — /nmk) 
证 1 
式 中 ,为 回归 模型 中 自 变量 个 数 ， 对 于 一 元 线性 回归 下 的 自由 度 为 三 
(1，n 一 2)。 若 计算 的 下 值 大 于 显著 性 水 平 a(0.05 或 0.01) 与 自由 度 f 的 临界 值 
Fr 时 ， 则 在 显著 性 水 平 a 与 自由 度 / 时 ， 表 明 所 建立 的 回归 方程 与 回归 直线 是 
显著 的 ， 所 配合 的 理论 曲线 是 有 意义 的 。 显然，F 值 愈 大 愈 显著 ， 回 归 模 型 的 精 
度 愈 高 。 
(3) 回 归 模 型 的 相关 系数 和 决定 系数 
回归 模型 的 相关 系数 R 的 大 小 ， 说 明 自 变量 x 和 因 变 量 y 之 间 线 性 关系 的 
程度 。 对 于 线性 回归 模型 ， 可 以 用 相关 系数 尺 的 大 小 来 判断 回归 模型 的 精度 ,但 
是 要 判断 回归 模型 ， 尤 其 是 曲线 回归 模型 拟 合 的 好 坏 ， 主 要 是 采用 决定 系数 R*。 
决定 系数 R* 是 回归 平方 和 占 总 平方 和 的 百分比 。R: 愈 大 ， 该 回归 模型 配合 的 理 
论 曲线 的 精度 愈 高 ， 反 之 ,该 回归 模型 配合 的 理论 曲线 精度 就 愈 低 ， 该 回归 模型 
的 实际 意义 就 不 大 。 那 么 R* 多 大 ， 回 归 模 型 才 有 价值 呢 ? 还 是 采用 R? 的 下 检 
验 。 设 下 检验 决定 系数 的 统计 量 为 : 
F= i 
1—R’ “ ¢—1 
式 中 ,上 为 回归 模型 中 自 变量 个 数 ， 对 于 一 元 线性 回归 下 的 自由 度 为 1 二 (1， 
m 一 2) 。 若 计算 的 下 值 大 于 显著 性 水 平 <(0. 05 或 0.01) 与 自由 度 的 临界 值 F。y 
时 ，R: 是 有 意义 的 ， 即 回归 模型 配合 的 理论 曲线 拟 合 度 较 高 ， 可 以 采用 该 回归 








(10. 37) 
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模型 作为 理论 曲线 的 模型 ， 反 之 ， 该 回归 模型 作为 理论 曲线 模型 毫 无 实际 意义 。 
一 般 来 讲 ， 在 空间 统计 学 中 变 差 函数 理论 模型 的 最 优 拟 合 ， 通 常 要 选择 几 个 
不 同 的 理论 模型 来 比较 ， 从 中 选 出 一 个 最 优 的 理论 模型 。 


10.2.4 普通 克 立 格 插 值 











用 于 估 值 的 方法 种 类 繁多 ， 常 用 的 有 多 角形 法 、 剖 面 法 、 算 术 平均 值 法 以 及 
距离 平方 反比 法 等 ， 这 些 估 值 方法 在 空间 插值 应 用 中 有 一 定 的 局 限 性 。 空 间 统计 
学 与 上 述 常规 方法 有 着 明显 的 不 同 。 它 基于 这 样 一 种 概念 ， 即 用 于 推断 现象 的 样 
品 相互 间 不 是 独立 的 ， 它 们 之 间 存 在 着 一 定 的 相关 关系 。 这 种 相关 性 除了 随 样品 
距离 变化 外 ， 还 随 样品 间 的 相对 方向 的 变化 而 变化 。 它 是 建立 在 变 差 函 数理 论 及 
结构 分 析 基 础 上 ， 在 有 限 区 域内 对 区 域 化 变量 的 取 值 进行 无 偏 最 优 估计 的 一 种 方 
法 。 克 立 格 法 是 空间 统计 学 的 核心 。 

克 立 格 法 (Kriging) 也 称 空间 局 部 估计 或 空间 局 部 插值 ， 是 空间 统计 学 中 两 
大 主要 方法 之 一 。 它 是 建立 在 变 差 函数 理论 及 结构 分 析 基 础 上 ， 在 有 限 区 域内 对 
区 域 化 变量 的 取 值 进行 无 偏 最 优 估计 的 一 种 方法 。 这 种 方法 最 早 由 南非 矿业 工程 
师 克 立 格 和 统计 学 家 西 舍 尔 在 20 世纪 50 年 代 根据 样本 空间 位 置 的 不 同和 样本 间 
相关 程度 的 不 同 ， 对 每 个 样本 赋予 一 定 的 权重 ， 进 行 滑动 加 权 平 均 ， 来 估计 未 知 
样 点 上 样本 平均 值 的 一 种 方法 。 

克 立 格 法 实质 上 是 利用 区 域 化 变量 的 原始 数据 和 变 差 函 数 的 结构 特点 ， 对 未 
采样 点 的 区 域 化 变量 的 取 值 进行 线性 无 偏 最 优 估计 的 一 种 方法 。 从 数学 的 角度 讲 
就 是 一 种 对 空间 分 布 的 数据 求 线 性 最 优 无 偏 内 插 估计 量 (best linear unbiased esti- 
mator， 简 写 为 BLUE) 的 一 种 方法 。 更 具体 地 讲 ， 它 是 根据 待 估 样 点 (或 待 估 块 
段 ) 有 限 邻 域内 若干 已 测定 的 样 点 数据 ， 在 认真 考虑 了 样 点 的 形状 、 大 小 和 空间 
相互 位 置 关系 ， 它 们 与 待 估 样 点 间 相互 空间 位 置 关 系 以 及 变 差 函数 提供 的 结构 信 
息 之 后 ， 对 该 待 估 样 点 值 进行 的 一 种 线性 无 偏 最 优 估计 。 

传统 的 估计 方法 中 常用 的 多 边 形 法 ， 主 要 是 根据 多 边 形 块 段 内 的 一 个 采样 资 
料 来 估计 数值 ， 其 缺点 是 没有 考虑 周围 其 他 采样 点 的 信息 ， 可 说 是 “一 孔 之 见 ”; 
剖面 法 和 三 角形 法 中 所 利用 的 每 一 个 采样 数据 在 估 值 计算 中 的 贡献 是 一 样 的 ， 即 
都 是 等 权 的 ， 没 有 区 别 不 同情 况 给 以 不 同 的 权重 系数 ， 这 就 是 它们 的 不 足 之 处 ; 
距离 反比 法 (或 距离 平方 反比 法 ) 虽 然 前 进 了 一 步 ， 考 虑 了 周围 的 样品 ， 而 且 也 以 
各 数据 用 样品 到 待 估 块 段 中 心 的 距离 (或 距离 平方 ) 的 倒数 为 权 进 行 了 加 权 平 均 ， 
但 它们 还 没有 考虑 样品 彼此 之 间 和 样品 与 待 估 块 段 之 间 的 空间 几何 构 形 因素 的 影 
响 ， 同 时 也 没有 考虑 到 所 研究 变量 的 空间 分 布 结构 信息 ( 即 变 差 函数 )。 克 立 格 法 
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与 传统 的 估计 不 同 ， 它 最 大 限度 地 利用 了 空间 取样 所 提供 的 各 种 信息 ， 在 估计 未 
知 样 点 数值 时 ， 它 不 仅 考虑 了 落 在 该 样 点 的 数据 ， 而 且 还 考虑 了 临近 样 点 的 数 
据 ， 不 仅 考虑 了 待 估 样 点 与 临近 已 知 样 点 的 空间 位 置 ， 还 考虑 了 各 临近 样 点 彼此 
之 间 的 位 置 关系 。 除 了 上 述 的 几 个 因素 外 ， 还 利用 了 已 有 观测 值 空间 分 布 的 结构 
特征 ， 使 克 立 格 估计 比 其 他 传统 的 估计 方法 更 精确 ， 更 符合 实际 ， 并 且 避 免 系统 
误差 的 出 现 ， 给 出 估计 误差 和 精度 。 这 些 是 克 立 格 法 的 最 大 优点 。 但 是 ， 如 果 变 
差 函 数 和 相关 分 析 的 结果 表明 区 域 化 变量 的 空间 相关 性 不 存在 ， 则 空间 局 部 插值 
的 方法 不 适用 。 

克 立 格 法 是 多 种 多 样 的 ， 且 其 本 身 也 在 不 断 发 展 、 完 善之 中 。 对 各 种 不 同 的 
目的 和 不 同 的 条 件 ， 可 以 采用 各 种 不 同 的 克 立 格 法 ， 这 样 可 以 取得 更 好 的 效果 。 
在 满足 二 阶 平稳 (或 本 征 ) 假 设 时 可 用 普通 克 立 格 法 (ordinary Kriging， 简 称 
OK)。 在 非 平稳 (或 说 有 漂移 存在 ) 现 象 中 ， 可 应 用 泛 克 立 格 法 ; 在 计算 局 部 估 值 
时 要 用 到 非 线性 估计 量 ， 就 可 用 析 取 克 立 格 法 。 此 外 ， 当 区 域 化 变量 服从 对 数 正 
态 分 布 时 ， 可 用 对 数 正 态 克 立 格 法 ; 对 有 多 个 变量 的 协同 区 域 化 现象 ， 可 用 协 克 
立 格 法 等 。 其 中 ， 最 常用 的 是 普通 克 立 格 法 。 

10. 2.4.1 一 般 问 题 及 其 解法 
设 Z(z) 为 区 域 化 变量 ,满足 二 阶 平稳 和 本 征 假设 ， 其 数学 期 望 为 常数 mn， 
协 方差 函数 C(h) 和 变 差 函 数 Y(h) 存 在 ， 即 : 
E[Z(z)]=m 
Ch) =ELZ(z) Zz+h)]—m: (10.38) 
X( 人 一 去 ELZCz) 一 Z(z 十 和 了 
对 中 心 位 于 zo 的 块 段 V 的 平均 值 Zy (zo) 以 
rn) = 二 | .zcpdz (10. 39) 
进行 估 值 。 在 待 估 块 眉 V 的 邻 域内 ，Z. Ci 一 1，2，3，…， 四 是 一 组 离散 的 信息 
样 唱 数据， 它们 是 定义 在 点 承载 xi 一 1，2，…， 四 上 的 ， 或 是 确定 在 以 到 点 为 中 
心 的 承载 z 上 的 平均 值 Z (zx;)( 简 记 为 Z)。 上 且 这 个 承载 (i 二 1,，2,…， 7i 既 
不 同 于 V， 又 各 不 相同 (图 10- 2) 。 
进行 估计 所 使 用 的 线性 估计 量 为 : 


pF (10.40) 
3 








它 是 个 数值 的 线性 组 合 。 
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本 过 
el 


图 10-2 n=4 时 信息 样 点 和 待 估 块 段 承载 图 (或 估计 构 形 图 ) 





克 立 格 估 值 的 原则 ， 就 是 在 保证 估计 量 邓 是 无 偏 的 ， 且 估计 方差 最 小 的 前 
提 下 ， 求 出 nn 个 权 系数 4;。 


10. 2.4.2 普通 克 立 格 法 


当 区 域 化 变量 ZCz) 的 数学 期 望 ELZ(z)] 一 7m 为 未 知 常数 时 ， 实 际 上 在 研究 

之 前 也 常常 如 此 ， 这 时 的 估计 采用 普通 克 立 格 法 。 若 要 使 如 为 Zv 的 无 偏 估计 
量 ， 即 要 求 : 

E(Z7 —2Zv)=0 (10. 41) 


因为 ”ECZy) = | .ELzcoD]dz 三 六 














又 因为 “ECZz) 一 民 ( Bz)= DEc2) = ma 
故 得 无 偏 性 条 件 : 
> =1 (10. 42) 
在 满足 无 偏 性 条 件 下 ， 估计 方差 示 为 : 
骂 =E(ZWW 一 好)?= Elz. 党 ze)] 
=C(V, + Ba, Cr iy 这 (zi WW (10. 43) 
要 使 估计 方差 生 为 最 小 ， 根据 拉 格 朗 日 原理 , 令 


1 (10. 44) 
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这 里 , 下 是 nn 个 权 系数 A; 和 / 的 (n 十 1) 元 函数 ， 一 2p 是 拉 格 朗 日 乘 数 。 求 出 下 
对 Xi(i 二 1，2，…，n) 以 及 下 对 p 的 偏 导数 ， 并 令 其 为 零 ， 便 得 到 下 列 方程 组 : 


让 = 一 2G(z， 人 十 2> Cr, x) —2p=0 
6 A 


(10. 45) 
aF 二 
| ls 
和 (2 js0 
整理 得 : 
PCa zp= Cr WW 
(10. 46) 
py 
i 
这 ln 十 1) 个 方程 的 方程 组 ， 称 为 普通 克 立 格 方程 组 。 
普通 克 立 格 方差 计算 公式 为 : 
=CV, WD- SaT W+p (10. 47) 
用 变 差 函数 表示 为 : 
My Ti)+p= 7(z, V) 
a (10. 48) 
PD 
i=1 
所 二 Bye V) 一 7V，V) 十 Ap (10. 49) 


以 上 样品 的 承载 是 点 承载 的 情况 ， 若 样品 的 承载 是 以 x; 为 中 心 ， 其 体积 为 必 
的 承载 时 ， 将 公式 中 的 协 方差 C(xz;，zz) 变 为 样品 域 之 间 的 平均 协 方差 CCvi， 羽 )， 
相应 的 公式 为 : 


DTC, WD) —p= CC, V) 
名 

>) 三 1 

各 


=CV, Do DAC D+p (10. 51) 
名 


(i=1, 2, *, n) (10. 50) 


251 


252 


环境 统计 分 析 





DN, wtp= Yu, V) 
a Gi=1, 2, ,nn) (10.52) 
> | 
St 
态 = D7 WD—7V, WW+p (10. 53) 
全 
上 述 过 程 也 可 用 矩阵 形式 表示 ， 令 : 
cn ca "…… cm 1 A c(x1, Xx) 
Ca cz con 1 Az c(z2, I) 
时 Ed Me Ey De=|l 
Ga Ga Su ca 1 和 cms 2) 
TAO 一 5 1 
则 普通 克 立 格 方程 组 为 : 
K4=D (10. 54) 
解 方程 组 (10. 54)， 可 得 : 
4=K"'D h (10. 55) 
其 估计 方差 为 : 
及 一 C(z，z) 一 1D (10. 56) 


在 以 上 的 介绍 中 ， 区 域 化 变量 Z(z) 的 数学 期 望 E[Z(z)]=m 可 以 是 已 知 或 
未 知 的 。 如 果 m 是 已 知 常数 ， 称 为 简单 克 立 格 法 ; 如 果 m 是 未 知 常数 ， 称 为 普 
通 克 立 格 法 。 不 管 是 哪 一 种 方法 ， 均 可 根据 以 上 方法 计算 权重 系数 和 克 立 格 
估计 量 。 


10.2.5 环境 应 用 


例 10.1 变 差 函数 计算 实例 (徐建华 ，2006) 

假设 某 地 区 降水 量 ZCz)( 单 位 : mm) 是 二 维 区 域 化 随机 变量 ， 满 足 二 阶 平稳 
假设 ， 其 观测 值 的 空间 正方 形 网 格 数据 如 图 10 - 3 所 示 ( 点 与 点 之 间 的 距离 为 /一 
1 km)。 试 计算 其 南北 方向 及 西北 和 东南 方向 的 变 差 函数 。 

从 图 10- 3 可 以 看 出 ， 空 间 上 有 些 点 ， 由 于 某 种 原因 没有 采集 到 。 如 果 没 有 
缺失 值 ， 可 直接 对 正方 形 网 格 数据 结构 计算 变 差 函数 ;在 有 缺失 值 的 情况 下 ， 也 
可 以 计算 变 差 函 数 。 只 要 “ 跳 过 ”缺失 点 位 置 即 可 (图 10 一 4)。 





70) 


7Y(2) 
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40— #40 一 -42 一 40 一 39 一 37 一 36 一 —* 
+ | 43 一 xx(42) 让 相 让 小 
3 灿 Ai(G37 六 35 必 3 炒 省 | 
i Xo(*)—35 + co | T 
36 ry 35—34—33—32—29 一 28 
和 3 | 几 本 省 pl 








图 10-3 空间 正方 形 网 格 数据 (点 间距 h=1 km) 
a a a 
EE 宣 '| 玫 将 


SA 
让 六 丰 让 回 让 让 回 女 友 六 
SS 


图 10-4 缺失 值 情况 下 样本 数 对 的 组 成 和 计算 过 程 ( O 为 缺失 值 ) 


首先 计算 南北 方向 上 的 变 差 函 数值 ， 由 变 差 函 数 的 计算 公式 (10. 21) 可 得 : 


1 





下 [(40 一 42)? 十 (42 一 37? 十 (37 一 35)? 十 (35 一 36)? 十 (36 一 38)? 十 (37 一 38)? 二 


2X36 


《38 一 35)2 十 (35 一 37)2 十 (40 一 43)2 十 (43 一 37)? 十 (36 一 35)2 十 (42 一 42)2 十 





(42 一 35)? 十 (35 一 35)? 十 (35 一 35)? 十 (40 一 39)? 十 (39 一 38)? 十 (38 一 37)? 


(37 一 34)? 十 (34 一 30)? 十 (39 一 39)? 十 (39 一 37)? 十 (37 一 36)* 十 (36 一 33)? 十 


《37 一 4]) 十 (41 一 37)2 十 (37 一 36)2 十 (36 一 32)2 十 (32 一 29)? 十 (36 一 407 











(40 一 33)? 十 (33 一 35)? 十 (35 一 29)* 十 (29 一 30)? 十 (38 一 34)? 十 (28 一 32)?] 





一 385/72 一 5. 35 


4 
2X27 


(40 一 37)? 十 (37 一 36)? 十 (42 一 35)? 十 (42 一 35)? 十 (35 一 35)? 十 (40 一 38)? 
(39 一 37)* 十 (38 一 34)? 十 (37 一 30)? 十 (39 一 37)? 十 (39 一 36)? 十 (37 一 33)? 





[(40 一 37)? 十 (42 一 35)? 十 (37 一 36)* 十 (35 一 38)? 十 (37 35) 十 (38 一 377 十 





(37 一 37)2 十 (41 一 36)2 十 (37 一 32)2 十 (36 一 29)2 十 (36 一 33)2? 十 (40 一 3572 十 





(33 一 29): 十 (35 一 30)2 十 (34 一 28)3] 一 493/54 一 9. 13 
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XC3) 一 区 亲 (440 一 35)? 十 (42 一 36* 十 (37 一 38)? 十 (37 一 37)? 十 (43 一 36)2 十 (37 一 35)2 十 


(42 一 35)? 十 (42 一 35)? 十 (40 一 37)? 十 (39 一 34)? 十 (38 一 30)? 十 (39 一 36)? 十 
(39 一 33)2 十 (37 一 36) 十 (41 一 32)2 十 (37 一 29): 十 (36 一 35)2 十 (40 一 29)2 十 
(33 一 30)2: 十 (38 一 28): 十 (34 一 32)23] 一 737/42 一 17. 55 


KO) =asdiaL 0 36)2 十 (42 一 38)2 十 (40 一 36) 十 (43 一 35)2 十 (42 一 35)2 十 (40 二 34)2 十 
(39 一 30)2 十 (39 一 33)2 十 (37 一 32)2 十 (41 一 29)2 十 (36 一 29)2 十 (40 一 30)2 
(38—32)*]=668/26=25. 69 

5) =k5L(40—38)’ +(40 一 35)? 十 (40 一 30)* 十 (37 一 29)?* 十 (36 一 30)?] 

一 229/10 一 22. 90 
最 后 ， 得 到 南北 方向 上 的 变 差 函 数 计算 结果 见 表 10.2。 同 样 ， 可 以 计算 东 
西方 向 和 西北 一 东南 方向 上 的 变 差 函数 。 东 西方 向 上 的 计算 与 南北 方向 相同 (这 


里 不 再 歼 述 ) 。 西 北 一 东南 方向 上 的 变 差 函 数 的 计算 过 程 ， 主 要 是 找 出 分 隔 距离 
四 和 样本 数据 对 。 这 里 的 不 像 南 北 和 东西 方向 上 的 分 隔 距 离 h 是 整数 ， 而 是 对 


角 线 上 的 距离 V2h。 因 为 西北 一 东南 方向 是 在 对 角 线 上 选取 样本 数据 对 NC(h)， 对 
正方 形 网 格 数据 每 一 分 隔 距 离 都 要 乘 以 /2， 变 差 函 数 的 计算 方法 与 前 面 均 相同 。 
壁 如 y(5V2) 的 计算 过 程 为 : 

7(5V2)w7(7.07) 一 下 5 [(42 一 32): 十 (40 一 30)2] 一 200/4 一 50. 00 


采用 同样 方法 计算 获得 的 西北 一 东南 方向 上 变 差 函数 的 其 他 计算 结 
果 ( 表 10. 2)。 
































表 10.2 南北 、 西 北 一 东南 方向 上 的 变 差 函数 计算 结果 

方向 南北 方向 西北 一 东南 
区 2 3 4 5 |h 14 2.82 4.24 5.65 7.07 
NOU) 36 27 21 13 5 ING) 32 21 13 8 2 


Yh) 5.35 9.13 17.55 25.69 22.90 |7Y(h) 7.06 12.95 30.85 58.13 50.00 





从 上 面 的 介绍 和 讨论 ， 我 们 知道 ， 球 状 变 差 函数 的 一 般 形式 为 : 
0 (h=0) 


XD)=jate( 妆 =- 直 )) (0<h<a) 


co 十 < (h>a) 
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当 0<h<a 时 ， 有 : 


XD)=6+ (类 jh 一 (二)# 








如 果 记 y=XCh)， 加 二 cu， 押 二 闫 ,后 二 一 总 5， 二 h， zs 一 避 ， 则 可 以 得 到 线 
性 模型 


3 一 名 十 zi 十 bz (10. 57) 

根据 表 10. 2 中 的 数据 ， 对 式 (10. 58) 进 行 最 小 二 乘 拟 合 ， 得 到 : 
y=2. 088 十 1.731zi 一 0. 007 92zs (10. 58) 
进一步 计算 可 知 ， 式 (10. 58) 的 显著 性 检验 参数 下 二 114.054，R? 二 0.962， 可 见 


模型 的 拟 合 效 果 是 很 好 的 。 
比较 式 (10. 57) 与 式 (10. 58)， 并 做 简单 计算 可 知 : co 一 2.048，c 一 1.154， 
a 二 8.353， 所 以 ， 球 状 变 差 函数 模型 为 : 


0 (h=0) 

7° (1)=12.048+1. 154 (gcdtsas — 2c sa5 ) (0<h<8. 535) (10.59) 
3. 202 (h>8. 535) 

在 实际 分 析 问 题 中 ， 变 差 函 数 模型 的 拟 合计 算 ， 一 般 需 要 借助 于 有 关 软 件 来 


完成 。 

例 10.2 克 立 格 估计 实例 (徐建华 ，2006) 

以 图 10 - 3 为 例 ，4 个 观测 点 z1，zs，zs，zs 的 观测 值 分 别 为 ZCzi) 一 37， 
Z(zs) 二 42，Z(zs) 二 36，Z(zs) 二 35， 如 果 假 设 降 水 量 的 变 差 函数 是 各 向 同性 
( 变 差 函数 在 各 个 方向 的 变化 都 相同 ) 的 二 维 球状 模型 ， 其 具体 形式 为 式 (10. 29)。 
现在 ,我 们 用 普通 克 立 格 法 估计 观测 点 zo 的 降水 量 值 ZCzo)。 

根据 普通 克 立 格 法 的 基本 原理 ， 我 们 知道 ，Z(zu) 估计 的 基本 公式 应 该 是 : 


Zr(m) 一 2NZ(zD) (i=1, 2，3，4) 
et 
根据 式 (10. 55)， 可 知 : 


bn cn ce cs ch 1 cm 

hz ca cz ca ca 1 to 

Ml=|cn ca ca ca 1 Cos (10. 60) 
A cu ca ca cu 1 


Co 


"1 Bt A 1 
根据 协 方差 与 变 差 函数 的 关系 以 及 式 (10. 59)， 可 得 协 方差 函数 : 
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3. 202 (h=0) 

“(h)= 二 全 二 

> 1.154[1 (ac8.555 | Oh 
0 (h>8. 535) 





当 i=j 时 ,cn 二 cw 二 cs 二 cw 二 c(0) 二 co 十 c 二 2, 048 十 1. 154 一 3. 202 
根据 克 立 格 和 矩阵 的 对 称 性 ， 当 ij 和) 时 ,cj 二 c(|z 一 x1) 二 3.202 一 yz 一 |， 
由 此 计算 可 得 : 
ciz=ca =cm=3.202—7y( VI +1)=3.202—7y(/2) 


=3, 202—[2. 048 十 1. 154(3xF Ex)]=. 870 


cu 一 ca 一 co 一 3. 202—7y( V2 )=0.711 
ca 一 ci 一 3. 202—y(VZ+2)=0. 601 
ca 一 ca 一 3. 202—y( VE 二 )=0. 383 
co 一 3. 202—Yy( VL)=0. 952 
co=3.202—y(V3:)=0.571 

将 以 上 计算 结果 代入 克 立 格 方程 组 (10. 54)， 得: 





A 3.202 0.870 0.542 0.711 1.000|] [0.952 0. 287 
Xz| |0.870 3.202 0.601 0.466 1.000| |o.711 0.210 
Xs|=|0.542 0.601 3.202 0.383 1.000| |0.571|=| 0.202 
Xl |0.711 0.466 0.383 3.202 1.000| |o.870 0. 301 
p) ll.000 1.000 1.000 1.000 0.000) [1.000) |—0.473 





即 克 立 格 权重 系数 分 别 为 : A1 二 0.287, Xz 二 0.210, Xs 三 0.202, 4 二 0.301, 
/一 一 0.473, 所 以 zo 点 的 降水 量 的 克 立 格 估 计 值 为 : 
2¢ =0.287Z(z1)+0. 210Z(z2)+0. 202Z(zs) 一 0. 3012Z(z4) 
=0. 287X37 十 0. 210X42 十 0. 202X36 一 0. 301 X35 二 37. 250(mm) 
克 立 格 估 计 方 差 为 : 


4 
歼 王 c(zoyzo) 一 >)Nc(Criszo) 十 凡 


et 
一 3.202 一 (0.287 X 0.952 十 0.210 X0.711 十 0.202X0.571 十 0.301 X 
0. 870) 十 0. 473 
= 2.875(mm) 
在 实际 分 析 问 题 中 ， 克 立 格 插值 计算 量 往往 较 大 ， 需 要 借助 于 有 关 软 件 来 完 
成 ， 目 前 ,在 ArcGIS8.0 以 上 版 本 的 geostatistical analyst 模块 中 ， 借 助 于 
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geostatistical 的 wizard 向 导 ， 不 但 可 以 完成 普通 克 立 格 的 插值 计算 ,还 可 以 实现 
泛 克 立 格 、 指 示 克 立 格 、 析 取 克 立 格 、 协 同 克 立 格 等 方法 的 插值 计算 过 程 。 

例 10.3 软件 计算 实例 

0) 数据 采集 

以 太湖 水 质 监测 为 例 ， 对 水 质 参数 进行 环境 空间 统计 分 析 。 在 采样 监测 中 ， 
考虑 到 湖岸 线 和 湖 中 岛 的 影响 ， 在 太湖 中 均匀 布置 12 行 10 列 共 75 个 采样 点 ， 
南北 向 采样 点 间距 为 5. 585 km， 东 西向 采样 点 间距 为 6. 079 km。 采 样 和 样品 的 
分 析 根据 国家 环境 有 关 规 范 进行 。 在 监测 中 主要 考虑 了 叶绿素 a(chlorophyll a， 
简称 chl-a)、 总 悬浮 物 (suspended sediment， 简 称 SS)、 透 明度 (secchi depth， 
简称 SD) 三 种 水 质 参 数 。 





图 10-$ 采样 点 分 布 图 


(2) 异 常 值 的 识别 与 处 理 一 一 影响 系数 法 

影响 系数 法 是 在 研究 区 域 化 变量 变异 程度 基础 上 ， 对 可 能 出 现 的 异常 值 的 影 
响 系数 人 为 赋值 ， 以 适当 地 抑制 其 影响 程度 的 一 种 异常 值 识别 与 处 理 方法 。 该 
法 对 样品 组 观测 值 需 进 行 多 次 识别 后 方 能 识别 出 所 有 异常 值 。 其 具体 步骤 如 下 : 

首先 ， 针 对 湖泊 水 质 参数 区 域 化 变量 的 个 观测 值 ， 分 别 计算 其 均值 M 和 
去 掉 可 疑 值 的 n 一 1 个 观测 值 的 均值 m。 以 太湖 采样 获得 的 水 质 参数 一 一 总 基 浮 
物 (SS) 的 部 分 采样 值 为 例 ， 其 原始 数据 列 及 M 和 wm 的 计算 值 见 表 10. 3。 
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表 10.3 影响 系数 法 计算 结果 
采样 点 妈 Ze Zh En Zs Zs Zn Zs Zo 2 
SS 3l 2 村 2 5 2 18 17 30 2 


M 2.55 27.55 27.5 27.55 2.5 27.5 27.55 27.55 27.55 27.55 

m 27.3684 27.5263 26.684 2 27.5263 27.6842 27.736 8 28.0526 28.1052 27.4211 27.5790 
Mm 1.066 1.009 10825 1009 Q952 09933 Q9821 09802 10047 Q990 
采样 点 如 加 Zz 及 3 和 和 Zn ZZ Z 

SS 38 30 22 2 12 24 2 20 38 2 

M 5 U5 A SB5 A5 2H5 HE5 2.5 2.55 2.55 

m 27.0000 27.4211 27.821 27.6316 283684 27.7368 27.6316 27.9474 27.0000 26.7368 
Mm 1.004 10047 09895 Q971 09712 09933 QA971 09858 1.0204 10304 











其 次 ， 根 据 观测 值 的 变异 性 ， 对 影响 系数 上 人 为 赋值 ， 当 M/m<k+1 时 ， 
可 疑 值 不 为 异常 值 ， 否 则 该 值 被 确定 为 异常 值 。 以 表 10. 3 数据 列 为 例 ， 当 k= 
0.05 时 有 M/m 志 1.05， 在 所 有 的 检验 数据 中 ， 没 有 一 个 的 结果 大 于 1. 05， 故 判 
定 为 没有 异常 值 ， 即 所 检验 的 数据 对 全 部 样品 值 的 影响 没有 一 个 超过 了 5%。 

然后 ， 如 果 有 异常 值 ， 用 异常 值 下 限 值 GL 二 ML[Cnk 十 1)/(k 十 1)] 代 替 异 常 
值 。 本 例 人 一 0. 1 时 ，GL 一 75. 14; k=0.05 时 ，GL 一 52. 48。 

如 果 有 异常 值 ， 重 复 上 述 步 又 ， 直 到 再 也 识别 不 出 新 的 异常 值 为 止 。 

(3) 实验 变 差 函数 

根据 实验 变 差 函 数 计算 公式 ， 计 算出 实验 变 差 函数 值 ， 作 出 变 差 图 (图 10- 6)。 





0.0006 

0.0005 
一 0.0004 
总 
0.0003 

0.0002 





叶绿素 a 的 变 差 图 
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透明 度 的 变 差 图 
图 10-6 各 水 质 参 数 的 结构 分 析 变 差 图 


(4) 理论 变 差 函数 拟 合 

理论 模型 的 最 优 拟 合 最 重要 的 是 对 模型 中 的 参数 进行 最 优 估计 。 变 差 函 数 的 
理论 模型 主要 是 曲线 模型 ， 将 曲线 模型 经 过 适当 的 变换 ， 化 为 线性 模型 ， 然 后 用 
最 小 二 乘法 原理 进行 未 知 参数 的 估计 。 通 过 各 个 模型 之 间 的 比较 ， 可 以 发 现 有 些 
模型 相对 于 其 他 几 个 模型 来 说 ， 更 符合 变 差 图 中 实际 的 点 ， 必 须 通过 它们 之 间 的 
比较 ， 选 择 出 一 个 最 优 的 理论 模型 。 在 模型 间 的 比较 时 ， 选 用 了 残 差 平方 和 
(Q) 、 标 准 误差 (S) 和 决定 系数 CR) 等 参数 。 分 别 应 用 四 种 模型 对 太湖 水 质 参数 
总 悬浮 物 进行 模拟 ， 计 算 结果 见 表 10.4。 从 表 10.4 可 以 看 出 ， 在 四 个 理论 模型 
中 ， 无 论 是 残 差 平方 和 (Q) 还 是 标准 误差 (S) 都 是 球状 模型 最 小 (分 别 是 375. 624 1 
和 6. 852 2) ， 而 球状 模型 的 决定 系数 (R:) 又 是 最 大 的 (0.747 0)， 尽 管 它们 之 间 
的 块 金 常数 和 基 台 值 都 基本 相同 ， 选 择 球状 模型 作为 太湖 水 质 参数 总 悬浮 物 的 变 
差 函 数理 论 模型 是 比较 合适 的 。 
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表 10.4 四 种 变 差 函数 理论 模型 拟 合 参数 表 
理论 模型 oo ¢ a Q Ss 当 
线性 有 基 台 值 模型 100.1640 50.0280 44.8930 1301.2519 12.7537 0.6552 
球状 模型 100.1079 35.1140 33.8295 375.6241 6.8522 0.7470 
指数 模型 90.4830 57.5280 51.3250 2359.8489 17.1750 0.5423 
高 斯 模型 。 104.8150 50.3720 52.0130 1453.1249 13.4774 0.5168 
注 ; oo 为 块 金 常数 ，c 为 拱 高 ，Q 为 残 差 平方 和 ，S 为 标准 误差 ，R* 为 决定 系数 。 











应 用 球状 模型 ， 对 所 有 水 质 参数 进行 模拟 ， 表 10. 5 给 出 了 各 个 水 质 参数 的 
球状 模型 理论 变 差 函数 拟 合 结果 。 





表 10.5 水 质 参数 理论 变 差 西 数 拟 合 结果 (球状 模型 拟 合 ) 
参数 块 金 常数 拱 高 基 台 值 变 程 /km 
chba 0.000 02 0.000 22 0. 000 24 29. 152 4 
SS 100.1079 35.114 0 135. 221 9 33. 829 5 
SD 200.013 5 850. 201 9 1 050. 215 4 35.171 2 


(5) 空间 最 优 估 计 

应 用 前 面 太湖 水 质 参数 区 域 化 变量 空间 结构 分 析 的 结果 和 普通 克 立 格 方程 
组 ， 对 水 质 参 数 总 悬浮 物 进行 最 优 估计 计算 ， 并 以 其 他 方法 作 比 较 ， 估 计 结 果 见 
表 10.6。 














表 10.6 克 立 格 内 插 与 传统 估计 方法 结果 比较 
采样 点 。 实际 值 线性 内 插 法 距离 平方 反比 法 克 立 格 法 
> 估计 值 。 估计 误差 ”估计 值 ”估计 误差 ”估计 值 “估计 误差 

6 26 5 550 “3754 “一 和 SF “279 一 一 1.96 
9 26 29. 站 ”一 5256 ‘2988 1 人 3261 月 2 | -066 
14 25 26.50 一 1L50 26.46 一 146， 26.15 一 1.15 
15 24 23.75 0.25 23.56 0.44 24.09 一 0.09 
19 27 29.75 一 275 30.11 —3.11 29.66  —2.66 
26 26 23.00 3.00 22.92 3.08 23.00 3.00 
32 30 30. 00 0.00 30.34 一 0.34 29,63 0.37 
33 26 25.75 0.25 25.90 0.10 26.30 ”一 0.30 
34 25 25.50 ”一 0.50 25.29 一 0.29 26.53 一 153 
45 30 30.50 ”一 0.50 31.18 一 L18 29.67 0.33 
估计 误差 均值 一 1.05 一 一 0.47 


估计 误差 方差 4.92 5.15 入 总 
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对 比 各 种 空间 估 值 方法 的 结果 可 以 看 出 ， 克 立 格 法 的 估计 误差 均值 和 估计 误 
差 方差 两 项 指标 均 最 小 ， 这 就 表明 了 克 立 格 法 在 内 陆 湖泊 的 实际 应 用 中 确 比 传统 
空间 估计 方法 有 着 更 强 的 有 效 性 、 最 优 性 和 无 偏 性 。 克 立 格 法 既 考 虑 了 内 陆 湖泊 
水 质 参数 空间 变化 的 随机 性 又 考虑 了 变化 的 结构 性 (相关 性 )， 是 一 种 用 统计 的 方 
法 揭示 变量 空间 结构 性 的 数学 方法 。 这 一 本 质 特征 决定 了 克 立 格 法 用 于 内 陆 湖 泊 
水 质 参数 空间 估计 时 ， 具 有 其 他 传统 方法 所 不 具有 的 许多 优越 性 质 。 比 如 ， 克 立 
格 法 能 够 给 出 各 空间 预测 点 的 估计 精度 ， 无 须 事先 知道 该 点 的 实测 值 。 而 传统 方 
法 则 无 法 给 出 估计 精度 ， 一 般 只 能 用 不 同方 法 的 计算 结果 加 以 比较 ， 当 然 更 谈 不 
上 有 一 种 衡量 估计 精度 的 标准 和 方法 了 

(6) 太湖 水 质 评价 

根据 前 面 太湖 水 质 参数 区 域 化 变量 空间 结构 分 析 的 结果 ， 应 用 克 立 格 法 对 太 
湖 整个 水 域 进行 水 质 参数 空间 估计 计算 。 所 有 的 运算 都 是 在 计算 机 上 进行 的 ， 估 
计 计 算 的 软件 是 SURFER 软件 。 太 湖 中 总 悬浮 物 的 评价 结果 见 图 10. 7。 


A 





图 10-7 太湖 中 总 悬浮 物 的 评价 结果 


主 成 分 分 析 就 是 设法 将 原来 众多 的 具有 一 定 相 关 性 的 指标 ， 重 新 组 合成 一 组 
新 的 相互 无 关 的 综合 指标 来 代 蔡 原 来 的 指标 ， 而 保持 其 原 指标 所 提供 的 大 量 信息 
(Johnson 等 ，1998) 。 主 成 分 分 析 的 基本 原理 是 : 将 N 个 相关 变量 X, 线性 组 合 
成 M 个 独立 变量 号 CM<N)， 六 中 保持 了 X, 中 大 部 分 信息 ， 于 是 N 个 相关 变 
量 X; 就 缩减 成 M 个 独立 变量 Y;，Y; 就 是 通常 所 说 的 主 成 分 。 
主 成 分 分 析 需 经 过 以 下 主要 步骤 : 
(1) 原 始 数据 标准 化 处 理 。 为 克服 各 参数 指标 量 纲 的 不 一 致 ， 常 用 正规 化 等 
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处 理 方法 对 数据 作 相应 变换 ; 
参评 因子 的 一 般 标 准 化 量化 公式 为 : 


i A G=1, 2, *, NN) (10. 61) 


其 中 ，Q; 为 某 参 评 因子 的 第 i 级 的 分 级 标准 化 值 ，X; 为 某 参 评 因子 的 第 ; 级 编码 
值 ，Xw 为 参评 因子 的 最 小 编码 值 ，X。。 为 参评 因子 的 最 大 编码 值 。 

(2) 建 立 N 个 变量 的 相关 系数 矩阵 R; 

(3) 计 算 相关 系数 矩阵 R 的 特征 值 和 相应 的 单位 特征 向 量 ; 

(4) 将 特征 向 量 作 线性 组 合 ,输出 m 个 主 成 分 。 





10.3.1 空间 主 成 分 分 析 步 又 








环境 空间 主 成 分 分 析 法 是 在 空间 数据 的 基础 上 ， 通 过 将 原始 空间 坐标 轴 旋 
转 ， 将 相关 的 多 变量 环境 空间 数据 转化 为 少数 几 个 不 相关 的 综合 指标 ， 实 现 用 较 
少 的 综合 指标 最 大 限度 地 保留 原来 较 多 环境 变量 所 反映 的 信息 。 空 间 主 成 分 分 析 
是 在 地 理 信息 系统 软件 ARC/INFO 的 grid 模块 支持 下 ， 利 用 该 模块 中 的 prin- 
comp 函数 ， 通 过 对 原始 空间 轴 的 旋转 完成 主 成 分 分 析 。 在 提取 出 来 的 空间 主 成 
分 的 基础 上 ， 可 以 进行 其 他 方面 的 工作 ， 比 如 区 域 生态 环境 综合 评价 、 区 域 生态 
脆弱 性 评价 等 。 其 重要 步骤 为 : 

(CD 在 ARC/INFO 中 用 polygrid 命令 将 环境 矢量 数据 转化 为 机 格 数据 ; 

(2) 按 照 一 定 的 标准 化 方法 对 转化 生成 的 栅 格 数据 进行 标准 化 处 理 ; 

(3) 利 用 grid 模块 中 的 makestack 命令 将 标准 化 处 理 后 的 指标 X; 图 转化 为 一 
个 综合 图 ; 

(4) 利 用 grid 模块 中 的 princomp 函数 ， 对 综合 图 进行 主 成 分 转换 ， 根 据 所 转 
换 的 空间 主 成 分 特征 向 量 ， 利 用 公式 ， 


一 G=l, 2 m) (10. 62) 
各 


计算 得 到 各 主 成 分 的 贡献 率 ， 再 根据 主 成 分 累计 贡献 率 大 小 ， 来 确定 主 成 分 数 ， 
(5) 在 环境 综合 评价 中 ， 综 合 评价 指数 定义 为 M 个 主 成 分 的 加 权 和 ， 而 权重 
用 每 个 主 成 分 相对 应 的 贡献 率 来 表示 ， 即 : 
E=aYi+asY:s+**+ayY; =1, 2, *, M) (10. 63) 
其 中 , EE 为 环境 综合 评价 指数 ; Y; 为 第 j 个 主 成 分 ; aj 为 第 7 主 成 分 对 应 的 贡 
献 率 。 





第 10 章 “环境 空间 统计 分 析 
263 


10. 3.2 环境 应 用 


区 域 生态 环境 质量 是 区 域 经 济 社会 可 持续 发 展 的 核心 和 基础 ， 研 究 流域 的 区 
域 生 态 环境 质量 及 其 演变 ， 有 助 于 制订 和 规划 流域 经 济 发 展 计划 。 区 域 生态 环境 
是 人 与 自然 、 环 境 交 互 作用 的 集中 体现 ， 受 到 自然 因素 和 人 文 因素 的 共同 影响 。 
自然 因素 和 人 文 因 素 的 各 个 因子 之 间 相 互 作 用 和 相互 影响 ， 以 不 同 的 方式 和 程度 
影响 着 区 域 生 态 环境 质量 的 状况 。 因 此 ， 在 评价 区 域 生态 环境 时 要 充分 考虑 各 种 
因子 的 综合 作用 。 

本 例题 以 三 峡 库 区 大 宁 河 流域 为 对 象 ， 在 遥感 和 GIS 基础 上 应 用 空间 主 成 分 
分 析 方 法 ， 综 合 评价 了 大 宁 河 流域 1990 年 和 2000 年 的 生态 环境 质量 ， 并 分 析 了 
该 流域 生态 环境 在 这 10 年 中 的 历史 演变 。 


@ ”研究 区 概况 


大 宁 河 又 名 盐 溪 、 昌 江 ， 发源 于 重庆 巫 溪 县 境内 ， 于 巫山 县 城 以 东 注入 长 
江 ， 全 长 202 km， 流域 面 积 达 4 415. 84 km*， 地 处 长 江 三 峡 库 区 之 中 。 本 区 地 处 
亚热带 湿润 区 ， 多 年 平均 降水 量 1 000 mm 左右 ,年 均 温 19. 8'C。 在 地 貌 上 属于 
四 川 盆 地 东部 边缘 山地 ， 地 势 南北 高 而 中 间 低 。 











| 






图 例 
人 V 大 宁 河 
水 山 县 
国 玉溪 县 Lm 


图 10-8 大 宁 河流 域 及 其 行政 区 域 示 意图 


近 几 年 ， 由 于 河流 水 体 污染 的 原因 ， 大 宁 河 经 常 出 现 “ 水 华 ” 现 象 ， 对 三 峡 
库 区 造成 了 一 定 的 影响 。 保 持 良好 的 生态 环境 不 仅 是 发 展 流域 经 济 、 实 现 可 持续 
发 展 的 重要 基础 ， 也 关系 到 三 峡 库 区 生态 环境 安全 ， 尤 其 对 保障 三 峡 工程 的 长 期 
有 效 运行 具有 重要 作用 。 然 而 ， 由 于 长 期 以 来 对 环境 资源 不 合理 的 开发 利用 ， 大 


环境 统计 分 析 
264 


宁 河 流域 生态 环境 已 经 非常 脆弱 。 因 此 ， 大 宁 河流 域 的 生态 环境 保护 问题 受到 了 
普遍 重视 。 


@ ”评价 指标 体系 和 数据 获取 


影响 生态 环境 质量 的 因子 是 多 方面 的 ， 有 自然 因素 也 有 人 为 因素 ， 是 典型 的 
自然 一 经 济 一 社会 复合 系统 。 因 此 ， 为 了 有 效 地 综合 评价 区 域 生态 环境 ， 在 制定 
评价 指标 体系 中 要 同时 考虑 自然 因素 和 人 为 因素 两 方面 。 根据 以 往 的 研究 
(Gessler 等 ，1995; Wilson 等 ，1996; Bellmann，2000; 黄 裕 婕 等 ，2000; 王 思 
远 等 ，2002，2004; 左 伟 ，2004)， 在 分 析 大 宁 河 流域 生态 环境 、 地 理 特征 以 及 
空间 尺度 等 特点 以 及 数据 可 获取 性 的 基础 上 ， 从 气候 、 水 文 、 土 壤 、 土 地 利用 、 
地 形 地 貌 等 方面 选择 本 次 评价 的 指标 。 从 气候 因子 、 地 形 因 子 、 植 被 因子 和 土地 
利用 因子 4 类 影响 因子 中 选取 了 10 个 评价 指标 : 0C 以 上 积温 、10C 以 上 积温 、 
年 平均 气温 、 湿 润 系数 、 平 均 降水 量 、 高 程 、 坡 向 、 坡 度 、 植 被 指数 、 土 地 利 
用 。 指 标 体系 及 数据 来 源 见 表 10. 7。 














表 10.7 生态 环境 综合 评价 指标 体系 和 数据 来 源 

一 级 指标 二 级 指标 三 级 指标 数据 获取 

自然 因素 气候 因子 二 0C 积 温 气象 站 点 实测 资料 
二 10C 积 温 气象 站 点 实测 资料 
年 平均 气温 气象 站 点 实测 资料 
湿润 系数 气象 站 点 实测 资料 计算 
平均 降水 量 气象 站 点 实测 资料 

地 形 因子 高 程 DEM 数据 

坡 向 DEM 数据 计算 
坡度 DEM 数据 计算 

人 为 因素 植被 因子 植被 指数 于 感 资料 解 译 

土地 利用 因子 ”土地 利用 遥感 资料 解 译 
@ ”数据 栅 格 化 


在 对 参评 因子 进行 栅 格 化 处 理 过 程 中 ,根据 大 宁 河 流域 的 实际 情况 ， 以 
100 mxX100 m 的 栅 格 大 小 为 评价 单元 ， 这 样 生态 环 境 综合 评价 结果 不 仅 能 够 反 
映 生 态 环境 质量 的 高 低 ， 而 且 可 以 更 好 地 反映 生态 环境 的 区 域 差异 。 
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”标准 化 处 理 


为 定量 评价 大 宁 河 流域 生态 环境 质量 ， 需 提取 空间 数据 库 中 的 各 图 层 的 专题 
数据 ， 利 用 GIS 软件 提供 的 分 析 工 具 ， 进 行 主 成 分 分 析 以 及 生态 环境 综合 评价 。 
由 于 各 种 专题 数据 性 质 不 同 ， 量 纲 各 异 ， 直 接 用 它们 进行 评价 是 困难 的 。 因 此 在 
分 析 和 评价 之 前 ， 需 按照 一 定 的 标准 对 参评 因子 进行 标准 化 处 理 。 根 据 公 式 
(10. 61) 进行 标准 化 处 理 ， 任 何 参评 因子 都 被 标准 化 为 1 到 10 之 间 ， 消 除了 量 
纲 的 影响 ， 增 强 了 评价 结果 的 可 信 度 。 


生 ”空间 主 成 分 分 析 


在 地 理 信息 系统 软件 ARC/INFO 的 grid 模块 支持 下 ， 应 用 主 成 分 分 析 功 能 
进行 各 综合 指数 的 计算 。 首 先 将 OC 以 上 积温 、10C 以 上 积温 、 年 平均 气温 进行 
主 成 分 分 析 生 成 热量 综合 指数 ， 将 平均 降水 量 、 湿 润 系 数 进行 主 成 分 分 析 生成 水 
分 综合 指数 ， 将 坡度 、 坡 向 、 高 程 进 行 主 成 分 分 析 生 成 地 形 地 貌 综合 指数 ， 将 土 
地 利用 、 植 被 指数 进行 主 成 分 分 析 生 成 土地 覆 被 综合 指数 ， 然 后 将 热量 综合 指数 
和 水 分 综合 指数 进行 主 成 分 分 析 生 成 气候 综合 指数 ， 最 后 根据 气候 综合 指数 、 土 
地 覆盖 指数 和 地 形 地 貌 指 数 进行 主 成 分 综合 评价 ， 计 算出 大 宁 河流 域 的 生态 环境 
综合 指数 。1990 年 和 2000 年 主 成 分 分 析 结 果 见 表 10. 8。 

















表 10.8 各 主 成 分 的 特征 值 、 贡 献 率 和 累计 贡献 率 


1990 年 2000 年 
指标 。。 主 成 分 “特征 值 ”贡献 率 ” 票 计 页 献 素 “特征 值 。 页 献 率 ” 标 计 贡献 率 


热量 综合 SPCA1 5. 679 0.997 0.997 6.225 0.997 0.997 
SPCA2 0.014 0.002 0.999 0.012 0.002 0.999 

SPCA3 0.006 0. 001 1. 000 0. 006 0.001 1.000 

水 分 综合 ”SPCAI1 3. 552 0.970 0.970 3. 856 0.997 0.997 
SPCA2 0. 109 0. 030 1. 000 0.012 0,003 1. 000 

地 形 地 貌 综合 SPCA1 6.561 0.533 0.533 6.561 0.533 0.533 
SPCA2 3. 330 0. 271 0. 804 3.330 0. 271 0. 804 

SPCA3 2.415 0. 196 1.000 2.415 0. 196 1.000 

气候 综合 SPCA1 5.346 0.688 0.688 5. 683 0. 700 0.700 
SPCA2 2. 421 0.312 1.000 2.436 0. 300 1.000 

土地 柳 被 综合 SPCAL 8520 0970 0.970 7.926 0.756 0.756 
SPCA2 0.267 0.030 1.000 2. 553 0. 244 1.000 

生态 环境 综合 SPCA1 6.207 0.620 0. 620 5. 845 0.729 0.729 
SPCA2 2.458 0.246 0. 866 1.654 0. 206 0.935 

SPCA3 1.340 0. 134 1.000 0.522 0.065 1.000 
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从 表 10. 8 可 以 看 出 ， 在 最 终生 成 的 生态 环境 综合 指数 中 ，1990 年 和 2000 年 
的 前 两 个 主 成 分 累计 贡献 率 分 别 为 86. 6% 和 93. 5%， 基 本 上 保留 了 原来 变量 所 
反映 的 主要 信息 ， 可 信 度 较 高 。 


@ ”评价 结果 及 其 空间 分 布 


在 地 理 信息 系统 ArcGIS 支持 下 ， 根 据 表 10. 8 和 式 (10. 63)， 可 以 得 到 大 宁 
河流 域 生态 环境 综合 评价 等 级 图 (图 10 - 9) 和 评价 结果 统计 表 ( 表 10. 9)。 根 据 生 
态 环境 综合 指数 大 小 ， 将 大 宁 河 流域 划分 为 10 级 不 同 的 生态 环境 质量 区 。 




















表 10.9 大 宁 河流 域 生态 环境 综合 评价 结果 
评价 等 级 到 2 Re 
面积 /km 面积 比例 面积 /km 面积 比例 
1 290. 881 0.066 160. 975 0.036 
2 254. 532 0.058 402.793 0.091 
3 397. 069 0.090 583. 945 0. 132 
4 0. 104 648. 656 0.147 
5 0.033 768. 248 0.174 
6 0.048 718. 238 0.163 
7 0.142 655, 804 0.149 
8 0.014 374. 530 0.085 
9 0.395 94. 957 0.022 
10 0.050 7.697 0.002 
合计 1.000 4 415. 843 1.000 
N 






淮 


MNO: 


Er 


1990 年 


第 10 章 “环境 空间 统计 分 析 





2000 年 
图 10-9 大 宁 河流 域 生态 环境 综合 评价 等 级 图 


从 图 10 -9 和 表 10. 9 可 以 看 出 ，1990 年 大 宁 河流 域 生态 环境 综合 评价 结果 
在 各 个 等 级 所 占 比 例 上 以 及 空间 分 布 上 有 很 大 差异 。 等 级 9 所 占 比 例 最 大 ， 约 
40%， 主 要 分 布 在 上 游 的 巫 溪 县 境内 。 相 比 之 下 ， 其 他 等 级 各 自 所 占 比例 都 很 
小 ， 分 布 不 具有 显著 特征 。2000 年 大 宁 河 流域 生态 环境 综合 评价 结果 在 各 个 等 
级 所 占 比 例 上 以 及 空间 分 布 上 也 有 很 大 差异 。 没 有 一 个 等 级 所 占 的 比例 非常 突 
出 ， 比 例 相对 较 大 的 等 级 主要 在 等 级 3 一 ?， 所 占 比例 最 大 的 为 等 级 5( 约 20%)。 
在 空间 分 布 上 ， 等 级 1 主要 分 布 在 下 游 的 巫 溪 县 南部 和 巫山 县 境内 ， 而 其 他 等 级 
分 布 不 具有 显著 特征 。 


和 @ ”生态 环境 历史 演变 


根据 表 10. 9 可 分 别 计算 出 1990 年 和 2000 年 各 评价 等 级 所 占 比 例 的 对 比 图 
和 累计 比例 对 比 图 (图 10 - 10) 。 

对 比 1990 年 和 2000 年 大 宁 河 流域 生态 环境 综合 评价 结果 ， 可 以 发 现 ， 在 
1990 年 大 宁 河 流域 生态 环境 总 体 比较 好 。 相 比 之 下 ，2000 年 的 评价 结果 显示 生 
态 环境 有 退化 的 趋势 。 如 果 把 1 一 3 等 级 划 为 焉 类 ，4 一 7 等 级 划 为 开 类 ，8 一 10 
等 级 划 为 [类 ，1990 年 分 别 为 ， 工 类 0. 459， 开 类 0. 328， 耻 类 0. 213， 而 2000 
年 分 别 为 : 工 类 0. 108，I 类 0. 632， 亚 类 0. 260。1990 年 大 宁 河 流域 生态 环境 
总 体 评 价 以 工 类 为 主 , 将 近 50%; 而 2000 年 总 体 评 价 以 开 类 为 主 ， 超 过 了 
60%。 可 见 ， 大 宁 河流 域 生态 环境 由 1990 年 的 工 类 为 主 ， 已 退化 为 2000 年 的 开 
类 为 主 。 相 对 来 说 ， 亚 类 生态 环境 基本 上 没有 多 少 变化 。 
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评价 等 级 


图 10- 10 1990 年 和 2000 年 生态 环境 综合 评价 等 级 对 比 图 


【思考 题 10】 


1， 什 么 是 区 域 化 变量 ? 什么 是 协 方差 函数 和 变 差 函数 ? 
2， 什 么 是 克 立 格 方法 ?举例 说 明 克 立 格 方法 在 环境 科学 中 的 应 用 。 
3， 假 设 某 地 区 采样 分 析 污 染 物 浓度 如 下 图 所 示 ， 计 算 该 区 域 的 区 域 化 变量 的 实验 变 差 函数 。 


rr 一 本 

18— 1 一 11 一 14 一 19 
人 mm 一 15 一 23 
15— 17 一 18 — (8)— 21 
10— 16 —I 0 16 —18 

4. 估计 第 3 题 中 球状 模型 的 参数 。 

5。 试 用 普通 克 立 格 估计 第 3 题 中 zo 点 的 值 。 

6. 什么 是 主 成 分 分 析 ? 什么 是 空间 主 成 分 分 析 ? 

7. 空间 主 成 分 分 析 的 步 又 有 哪些 ? 

8. 空间 主 成 分 分 析 的 目的 是 什么 ? 

9 


在 应 用 ARC/INFO 进行 空间 主 成 分 分 析 时 ， 都 涉及 到 什么 操作 ? 
10. 举例 说 明 空间 主 成 分 分 析 的 作用 。 
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部 分 思考 题 答案 


1， 管 案 : 常用 的 统计 量 有 样本 均值 、 样 本 标准 差 、 样 本 方差 、 样 本 的 K 阶 原 点 矩 和 样本 
的 K 阶 中 心 矩 等 。 
5 车 案 ,72 a=3 


PG<X<9)=o( 呈 4) 一 o( 于 4) 


一 6(22) 一 o(352) 一 6(2.333 3) 一 060: 333 3) 
一 0. 990 一 0. 629=0. 361 


7. 管 案 : E( DlaXi)= DaEX) = Dap=p 
ft a ot 
8 答案: n= 9,0 = 15, = 500,¢ = 0.01 


9 
T= Dz/n= 510.1111 
[3 


We 
oo n 


za0s = 2.575 8 
12Z|< wm 一 2.575 8 
不 能 拒绝 原 假设 。 这 台 包 装机 工作 正常 。 
9， 管 案 : n=7, j=300, a=0.05 


z= Dn/n= 296.2857 
人 


二 
t= 一 一 0.359 6 
人 


加 om(6) 一 2. 447 
|#|< to0(6) = 2.447 
不 能 拒绝 原 假设 。 污 灌 对 玉米 穗 重 无 显著 影响 - 
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10. 管 案 ; 

双 因素 方差 分 析 表 
方差 来 源 SS 自由 度 均 方差 下 值 
因素 A 0.157 4 2 0.078 7 23.8267  F(2, 6)=5.14 
因素 B 0.8796 3 0.293 2 88.7565  F(3, 6)=4.76 
误差 EE 0.0198 6 0.003 3 
总 和 了 1.056 8 11 


大 气 中 桔 尘 含量 的 各 季节 差异 显著 ; 大 气 中 飘 尘 含量 的 不 同 区 域 差异 显著 。 


4. 答案 : 
《1) 根 据 表 中 所 给 的 数据 ， 可 以 作出 如 下 的 散 点 图 ， 








0 50 100 150 
COD 


(4 题 图 1) 


(2) 由 上 面 的 散 点 图 可 以 看 出 ， 所 有 的 点 基本 都 分 布 在 一 条 直线 周围 ， 故 判断 COD 与 
BOD; 之 间 大 致 成 线性 关系 。 
(3) 得 到 的 线性 回归 方程 为 : y 一 2 十 jz 一 一 5. 364 2 十 0. 492 5z 
(4) 因 为 Ls 二 5. 450 3X10'!, Ls 二 2. 684 3X10:，Lw 一 1.685 5X10'， 
二 二 名 一 一 2. 684 3X104 Er 
ToL» V5.4503X10'X1.6855X10 


由 此 可 知 COD 与 BOD 的 决定 系数 二 一 2. 228 3。 
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5) 根据 残 差 的 定义 ， 可 以 得 到 以 下 的 残 差 图 : 











i 
,EE 
样本 点 

(4 题 图 2) 


(6) 根 据 (3) 中 得 到 的 线性 回归 方程 可 以 计算 得 到 COD 一 99 时 ，BOD; 的 值 为 : 
3 一 a 十 jz 一 一 5. 364 2 十 0. 492 5X99=43. 393 0 


(7)iz=-9.= 
na 





=0. 280 1X10 


近似 有 

P(43. 393 0 一 105. 85<y <43. 393 0 十 105. 85)=0. 95 
5， 答案 ， 
(1) 散 点 图 : 





4.40 T T = T 
4.20 
4.00[* 
3.80 
3.60 + 

™ 3.40 
3.20 
3.00 
2.80 
2.60 学 


L Rn 1 


0 10 20 ~ 和 0 厨 0 70 
(5 题 图 1) 
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(2) 作 变换 ， 对 > 一 ax 两 边 取 对 数 ， 得 到 lg y=lg a 十 blg z 


令 y =lg y, 工 一 lg z， 则 得 ylg a 十 bz 
对 数据 进行 变换 ， 变 换 后 数据 的 散 点 图 如 下 所 示 : 


0.65 gg 








ol ee A 
0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 
lgx 
(5 题 图 2) 


由 上 图 可 知 ， 所 有 的 点 基本 上 都 分 布 在 一 条 直线 的 周围 ， 故 可 以 采用 线性 回归 分 析 。 
根据 变换 后 的 数据 ， 采 用 一 元 线性 回归 分 析 可 以 得 到 : 
Y=A+Br’=0.642 9 一 0. 110 7z/ 
将 yy 二 lg y， zx =lg 工 代入 到 上 式 中 可 以 得 到 ; 
y=4.216 0zreno07 
(3)Sa =Lyy =0. 033 3, Sa =0. 031 1, Sw 一 Sa 一 Sa 一 0.033 3 一 0.031 1 一 0.002 2 
则 F-77015 8 


当 a=0.05 时 ， 查 下 分 布 表 ,得 到 F,(1, nn 一 2) 二 6.61， 由 于 FF 二 71.015 8 二 6.61， 所 以 
认为 线性 关系 式 y 二 A 十 Bx 二 0. 642 9 一 0. 110 7x 显著 。 


2 答案 ,回归 方程 为 ，y 一 6. 094 4 一 0.037 1zi 十 0.020 4zs 一 1. 176 2zs 。 
3， 答案 : 记 铁路 客车 ， 铁 路 里 程 ， 公 路 里 程 ， 公 路 客车 分 别 为 ZI ，zs，Zs，z4， 记 旅客 
周转 量 为 y。 
回归 方程 为 : 
y=1.511 2X104 一 0. 239zi 一 0. 253 3X10tzs 一 0.008 1X104zs 十 0.000 5X10tz,。 
4. 答案 ， 
(1) 相关 系数 矩阵 为 : 


1.0000 0.3355 
(Ri 5 | 
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(2) 回归 方程 为 : y 一 0. 668 5 一 0.029 4zi 一 0.001 0zz。 
(3) 拟 合 优 度 检验 
Se 一 0.020 2, Sa =0.006 1, Sn=0.0140 





_Sa_0.0140_ 
了 一 5 一 0.020 5 一 0.6955 
7 一 0.834 0 


在 显著 性 水 平 一 0. 05 下 , 7, (n 一 2)=x,(13)==0. 514 0。 
由 于 一 0. 834 0>>0. 514 0 一 六 (一 2)， 所 以 认为 回归 方程 的 拟 合 优 度 很 高 。 
对 每 个 回归 系数 的 显著 性 检验 : 
由 程序 的 运算 结果 知道 : Fi 一 581. 844 2，F; 二 12. 525 3 
查 下 分 布 表 得 : 
F,(1, n—k—l)=F,(1, 12)=4.75 
可 以 看 到 : Fi 二 F,，F:>F,， 说 明 每 个 变量 对 y 的 影响 都 是 很 显著 的 。 


1， 答 案 ; (1) 设 标准 差 标准 化 后 的 数据 矩阵 为 X ，p 一 4 时 的 明科 夫 斯 基 距 离 矩 阵 为 4。 
一 0.770 3 0.0374 一 1.2826 一 1.5240 一 0.8805 一 0.331 1 
一 0.597 4 一 1.280 1 1.2658 一 0.6232 一 0.6721 一 0.368 9 
一 1.2315 1.807 9 0.490 2 0.1274 一 0.1324 一 0.277 1 
一 1.4620 一 0.0861 一 0.2854 0.0023 1.9968 一 0.313 1 
1.4201 一 0.8272 一 1.3565 2.0039 一 0.8221 一 0.282 3 
X=| 0.2673 一 0.580 2 1.2658 0.6278 一 0.5822 3.1607 
一 0.6550 0.1198 一 0.1377 1.253 3 一 0.432 2 一 0.2951 
一 0.0210 —1.2801 1.2658 一 0.6232 一 0.6721 一 0.368 9 
0.497 8 1.8079 0.4902 0.1274 一 0.1324 一 0.2771 
0.8437 一 0.086 1 一 0.285 4 0.002 3 1.996 8 一 0.313 1 
1.7083 0.3668 一 1.4303， 一 1.3739 0:332'5 一 0.333 7 
0000 26022 22899 2946 3651 38230 27976 26066 23411 3.0068 25137 
26022 00000 3058 27747 32497 35480 21180 05764 3.1065 2.8176 3.0783 
22899 3.0958 00000 2408 3328 36512 17783 3124 17293 26895 31442 
2946 27747 2408 00000 34985 37830 24777 28176 26394 23057 3.2679 
36551 32497 3328 34985 00000 37281 21631 31565 29249 2992 34023 
A=|3.8230 35480 3.6512 3.7830 37281 0000 3.4858 3.549 26250 37416 3.8679 
2.7976 21180 1.7783 2477 21631 3.4858 0.000 2122 1878 25504 3.0090 
2.6066 05764 3124 2876 31565 3549 2122 0000 30950 27747 28974 
23411 31065 1.7293 26394 29249 36250 1.878 3.0950 040000 2410 22403 
30068 28176 26895 23057 2992 37416 25504 27747 2410 00000 1.9196 
2537 30783 3142 3.2679 3423 3879 3.0090 28974 22403 1996 00000 
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(2) 极 差 标准 化 后 的 数据 矩阵 为 XX; ， 要 素 之 间 的 夹 角 余 弦 和 矩阵 为 B。 


2. 





10000 
0.2214 
0.744 
0.3171 
0.403 
0.3527 
0.5337 
0.282 4 
0.8441 
05029 
07637 


答案 : 


Q214 
1.0000 
06064 
04610 
0.3657 
07419 
06649 
0.9878 
0.6456 
0525 
042426 





0.218 2 
0.2727 
0.0727 
0.0000 
0. 909 1 
0.545 5 
0.2545 
0.454 5 
0.618 2 
0.727 3 
1,0000 
0.744 
0.6064 
10000 
06971 
03871 
05940 
0.8520 
05829 
0.9294 
0.6279 
0.433 


0.4267 0.0548 
0.0000 1.0000 
1.0000 7123 
0.3867 4247 


0.2267 
0.453 3 
0.0000 
1.0000 
0.3867 0.4247 
0.533 3 0.0000 


1 
0. 
0. 
0.1467 0.0274 
1. 
0. 
1 
0. 


03171 0.403 03527 05337 
04610 03657 07419 06649 
06971 03871 05M0 08520 
10000 0314 04400 06644 
03I14 1000 05308 47573 
0.400 05308 10000 47003 
06644 0.7573 407003 10000 
04365 04538 0.755 06678 
06339 05991 06621 08627 
08611 06080 0.5466 0.6931 
0437 06312 0.3730 04602 


0.0000 
0.255 3 
0.468 1 
0.432 6 
1.0000 
0.609 9 
0.787 2 
0.255 3 
0.468 1 
0.4326 
0.0426 


《ID) 设 极 差 标准 化 处 理 后 的 矩阵 为 X 。 


Cd 


1.0000 
0.0000 
0.2597 
0.0649 
0.1948 
0.0779 
0.1039 
0.1688 


0.0000 0.0000 
0.6944 1.0000 
0.9028 0.6154 
0.9722 0.6346 
0.1389 0.2091 
0.958 3 0.2933 
1.0000 0.8365 
0.458 3 0.4495 


0.0000 
1.0000 
0.306 4 
0.677 4 
0.901 2 
0.185 1 
0.188 7 
0.516 6 


0.0000 
0.072 4 
0.2600 
1.0000 
0.020 3 
0.1037 
0.1558 
0.072 4 
0.260 0 
1.0000 
0.4216 
02824 
0.9878 
0.5829 
0.4365 
0.4538 
0.7555 
0.6678 
10000 
0.6787 
0.5803 
0.3627 


0.138 9 
0.0000 
0.0000 
1.0000 
0.2778 
0.5278 
0.3333 
0.388 9 


0.0107 
0.0000 
0.026 0 
0.015 8 
0.024 6 
1.0000 
0, 020 91|. 
0.0000 
0.0260 
0.0158 
0.010 0 
0841 05029 
0656 05265 
0Q9294 06279 
06339 08611 
05991 06080 
Q.6621 0.5466 
0.8627 0.6931 
0.6787 0,5803 
10000 0.7589 
47589 1.000 
0.7177 0.7936 





0.000 0 
0.0000 
0.0000 
1.0000 
0.0000 
0.0000 
0.0000 
0.000 0. 


0.7637 
02426 
04533 
0.4337 
0.6312 
0.3730 
0.4602 
0.3627 
07177 
0.7936 
1.000 0. 
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(2) 设 欧 氏 距离 矩阵 为 4。 

0.0000 1.8712 1.3619 2.1030 1.2421 1.4283 1.6051 1.1968 
1.8712 0.0000 0.8602 1.5228 1.0291 1.2320 0.9488 0.8787 
1.3619 0.8602 0.0000 1.4768 1.0880 0.6582 0.4556 0.6548 
2.1030 1.5228 1.4768 0.0000 1.5697 1.2579 1.3139 1.3071 
1.2421 1.0291 1.0880 1.5697 0.0000 1.1258 1.2861 0.5663 
1.4283 1.2320 0.6582 1.2579 1.1258 0.0000 0.5791 0.6418 
1.6051 0.9488 0.4556 1.3139 1.2861 0.5791 0.0000 0.7470 
1.1968 0.8787 0.6548 1.3071 0.5663 0.6418 0.7470 0.0000 
3) 最短 距离 聚 类 图 ， 如 下 图 所 示 。 


最 短 距 离 聚 类 法 






































05 
3 WT ms 
监测 年 份 


(2 题 图 ) 


注 ， 监 测 年 份 轴 中 的 1 一 8 分 别 对 应 1993 一 2000 年 。 
由 上 图 可 知 ，1993，1994 和 1996 年 为 特殊 的 年 份 ， 不 能 和 其 他 年 份 聚 类 ， 应 各 为 一 类 。 
若 其 他 年 份 聚 类 为 两 类 ， 则 1995，1998 和 1999 年 为 一 类 ; 1997 和 2000 年 为 一 类 。 
3， 答案 :1) 设 总 和 标准 化 后 的 数据 为 X ， 用 夹 角 余 弦 求 得 的 6 种 气体 间 相 似 系数 矩阵 
为 A。 
0.1267 0.1239 0.0638 0.0288 0.0178 0.0139 
0.1109 0.0811 0.2058 0.0835 0.048 3 0.0046 
0.0860 0.1917 0.1626 0.1290 0.1274 0.0272 
_|0. 0769 0.1401 0.1193 0.1214 0.4395 0.0184 
要 0.1900 0.0973 0.0597 0.2428 0.0264 0.026 0 
0.1448 0.1062 0.2058 0.1593 0.0615 0.873 8 
0.1086 0.1313 0.1276 0.1973 0.0835 0.022 8 
0.1561 0.1283 0.0556 0.0379 0.1956 0.013 3. 
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1.0000 0.8975 0.8211 0.8737 0.5636 0.441 8 
0.8975 1.0000 0.8720 0.8366 0.7365 0.3446 
0.8211 0.8720 1.0000 0.8166 0.6010 0.5662 
0.8737 0.8366 0.8166 1.0000 0.5526 0.4433 
0.5636 0.7365 0.6010 0.5526 1.0000 0.1585 


0.4418 0.3446 0.5662 0.4433 0.1585 1.0000 
最 远 距离 聚 类 图 ， 如 下 图 所 示 。 


最 远 距离 聚 类 法 

















4 3 
聚 类 气体 
(3 题 图 1) 


由 上 图 可 知 ，1，2，3 和 4 四 种 气体 ， 即 握 、 硫 化 氢 、SO: 和 碳 4 可 聚 为 一 类 ， 环 氧 氧 丙 
烧 、 环 已 烷 为 独立 的 气体 ， 各 为 一 类 。 
(2) 标 准 差 标准 化 后 的 矩阵 为 &s ， 欧 氏 距 离 测度 8 个 样 点 的 距离 矩阵 为 肌 

0.0482 一 0.0355 一 1.0473 一 1.3798 一 0.8200 一 0.392 3 
一 0.4020 一 1.407 2 1.3817 一 0.5960 一 0.586 4 一 0.4252 
一 1.109 6 2.140 4 0.642 5 0.057 2 0.0187 一 0.345 4 
_|=1.3669 0.4848 一 0.0968 一 0.0517 2.4055 一 0.3767 
和 | L8493 —0.8869 —1.1177 1.6901 —0.7545 —0.3498 
0.5628 一 0.603 1 1.3817 0.4926 一 0.4855 2.644 9 
一 0.466 3 0.2010 0.0440 1.0369 一 0.3175 一 0.3610 
0.8845 0.1064 一 1.1881 一 1.249 2 0.5398 一 0.3946 
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0.0000 2.9419 3.4207 3.9172 3.6612 4.3966 2.7579 1.6141 
2.9419 0.0000 3.7989 3.9933 4.1045 3.4927 2.6689 3.4994 
3.4207 3.7989 0.0000 3.0105 4.9277 4.5007 2.3678 3.6667 
B= 3.9172 3.9933 3.0105 0.0000 5.1272 4.9878 3.0840 3.3642 
3.6612 4.1045 4.9277 5.1272 0.0000 4.2962 2.9177 3.4985 
4.3966 3.4927 4.5007 4.9878 4.2962 0.0000 3.5855 4.5315 
2.7579 2.6689 2.3678 3.0840 2.9177 3.5855 0.0000 3.0519 
1.6141 3.4994 3.6667 3.3642 3.4985 4.5315 3.0519 0.0000 
最 短 距 离 聚 类 图 ， 如 下 图 所 示 。 
最 短 距 离 聚 类 法 

3.4| 

Sm 

3.0| 

地 2.8| 

怪 2.6| 

洒 2.4| 

2 

2.3| 

2.0| 

1.8| 

1.6| 

BT 
监测 样 点 
(3 题 图 2) 


由 上 图 可 知 ，4，5 和 6 号 样 点 比较 特殊 ， 不 能 和 其 他 样 点 聚 类 ， 应 各 为 一 类 ; 若 其 他 样 


点 分 为 两 类 ， 则 1 和 8 号 样 点 为 一 类 ; 2，3 和 7 号 为 一 类 。 
4， 答 案 : 设 标准 差 标准 化 后 的 矩阵 为 X。 


0.4164 
2.6169 

一 0.396 3 

一 0.606 3 
= —0.889 3 
—0.4237 

一 0.396 3 

一 0.049 3 
0.2429 
—0.5150 


1.5098 
—0.8540 
0.3217 
一 0.8050 
一 7 
一 0.405 5 
0.4351 
0.3246 
1.2713 
一 0.019 2 


0.4250 
0.6559 
一 0.253 9 
一 0.597 5 
0.0596 
一 0.7826 
一 1.027 4 
1.2455 
1.6718 
—1.396 4 


0.0986 
一 0.7130 
0.295 6 
—0.6680 
—1.0912 
—0.5520 
一 0.0050 
1135 3 
21710 
一 06713 


2173 3 
一 0.5308 
0.9702 
0.000 1 
—1.1944 
一 1.023 6 
0.202 1 
—0.5167 
0.3263 
一 0.406 5 


1.175 2 
一 0.7456 
0.4892 
一 0.608 4 
一 0.295 4 
一 0.955 7 
一 0.5098 
2.101 4 
0.2062 
一 0.857 1 


1.096 8 
一 0.6206 
1.4147 
—0.776 8 
一 0.860 4 
一 1].133 6 
0.0820 
0.8515 
0.985 3 
一 .038 8 
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欧 氏 距离 矩阵 为 4。 
0.0000 5.0093 2.1426 4.4104 5.6039 5.0982 3.4191 3.3946 3.2092 4.7394 
5.0093 0.0000 4.4974 3.5056 3.7878 3.4773 3.8938 4.7470 4.8705 3.8628 
2.1426 4.4974 0.0000 3.0509 4.1417 3.7529 2.0164 2.8637 3.0355 3.4783 
4.4104 3.5056 3.0509 0.0000 1.7808 1.2396 1.7304 4.3007 4.7028 1.2489 
5.6039 3.7878 4.1417 1.7808 0.0000 1.9085 3.2234 4.5418 5.4586 2.5496 
5.0982 3.4773 3.7529 1.2396 1.9085 0.0000 2.0604 4.6019 4.9353 0.9736 
3.4191 3.8938 2.0164 1.7304 3.2234 2.0604 0.0000 3.8113 3.8042 1.5962 
3.3946 4.7470 2.8637 4.3007 4.5418 4.6019 3.8113 0.0000 2.5604 4.7871 
3.2092 4.8705 3.0355 4.7028 5.4586 4.9353 3.8042 2.5604 0.0000 5.0495 
4.7394 3.8628 3.4783 1.2489 2.5496 0.9736 1.5962 4.7871 5.0495 0.0000 


最 远 距离 聚 类 法 








0 A 全 
监测 样 点 


(4 题 图 ) 


由 上 图 可 知 ， 若 聚 为 三 类 ,， 则 2，4，5，6 和 10 号 样 点 为 一 类 ; 1，8 和 9 号 样 点 为 一 类 ， 
3 和 ?号 样 点 为 一 类 。 

5. 答案 : 极 差 的 标准 化 后 的 矩阵 为 六， 指标 间 的 相关 系数 为 R。 

omg QODO Qos QB1 TD GID Aas dem LDO LoD G966 0 过 ?086 QB Go0o Qs Qo Qo Qit QR 

1 Qa80 deg3 Qs Ld0 LoD 1m0 QM QD0 Gens OBS GOD LD0 QI G4 QW O05 GOD 3 QAO QS OOO 
= | dw ol Qo84 LI MD don0 QO AmBo Gat Lood Qo Qo0 Qs Lo0 QA06 350 LODO 0403 LDO GT ANS Lo 

(ono Qs Li 261 Ind QO Uw? LO Lopd a733 Goo Qo ut WOD LDO IO O05 Ld0 0895 1000 1000 0 全) 

L000 1 Gon Ano RO UM5 QW) don0 D2 Aono DIB4 0 GM Qin7 GG Quoo Gol83 GoM2 Ql Qa8 QO QOD0. 
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10D4 《和 1 并 0 -和 租 (到 》 到 5 -天 3 天 帮 7 才 类 5 六 才 和 和 1 郑 ; 开 因 3 忆 允 1 到 -入 的 0 忆 相 7 -各 5 - 罗 末 4 
tt 
0 1 和 7 1 区 | 45 我 2 二 入 1 -和 4 玉 31 才 ) 053 49 《| 1 上 新 
0 上 部 4 志和 0 居 | 4 1 4 侧 】 QR 4 和】 0 和 4 QM 1 入 14 通 ( 0 入 哎 9 1 和 5 
如 3 全 7 归 上 D) 忆 绪 《新 | -全 开交 和 到 5 才 和 5 志 奋 0 65 志和 二季 | 忆 御 | 二 信人 一 格 { 二 基 4- 个 1 一 靳 | 二 和 3 
博 2 47 已 胃 0 人 4 0 最 4 L004 和 1 4 哆 入 多 0 志 也 人 二 为 2 飞 玫 》 1 杨 ] -和 入 天 上 和 玉 科 5 -区 和 交 
《15 0 攻 1 4 六 台 ] 4 新 】 《得 和 LN 《 汝 1 网 和 加 9 - 坟 入 条 | 己 攻 9 玉 到 2 好 9 多 凶 49 0 《天 1 了 1 攻 8 -名 
名 3 对 0 0 和 ?0 QB OL LD 
忆 思 1 习作 21 册 1 1 各 2 飞人 6 各 -48 他 0 1 1 号 -六 3 玉 多 9 乱入 
~ -AB] 5 OW: -4s D6 -0 ONY UB Lo -h053 UM -An7 A G2 GEL UY QW QFE GOl Gy OG 
忆 轴 4 忆 项 7 忆 到 0 多 9 M5 飞 为 2 和， -9 泛 3 D0 0 独 9 0 注 ;- 才 入 ;04B0 忆 要 3 全 六 和 9 入 天 ] -7 
忆 狼 入 信和 0 和 4 ~ 艺 0 和 9 活 ] 玉 洒 1 -其 4 网 LD 到 种 【总 ;志和 3 0 玖 8 志和 耻 0 部 而 亏 梯 人 0 杠 ) 
[td] 
了 加 3 逢 $ 折 3 4 和 3 -要 人 二 40 【和 0 4 权 并 和 5 才 因 1 二 写 1 1 功 0 4 孝顺 3 0 码 ! 习 梧 1 1 各 9 4 和 | 1 姑 ) 【 亚 | 
-1 人 3 可 -A QR OB LA G2 QO 03 -00 GM LO Oe] OE OS LBA A OS OGL 
下 忆 员 0Q 各 有史 4 各 1 - 策 】 0 和 5 区 0 14 枯 式 各] -和 开业 3- 岩 】 4 站 | L000 00 《到 3 的 0 QD 1 玫 0 好 
也 到 必要) 4 和 3 2 0- GW] (0 07 7 L000 
“0 和 国术 4 和 必 拒 2 才 到 4 飞 祁 1- 玫 6 《4 友 0 1 熏 54 私 3 1 宫 LE57 1 驴 | 0 攻 ) 1 条 人 
必要 0 1 本 1 1 我 1 飞 当 二 条 4 你 1 了 者 5 0 
和 5 知情 4 必 吃 0 旭 5 1 1 剖 5 和 1 坏 因 ] -0 A 0 二 因 7 40 510 1 加; 0 
六 两 3 新 2 0 各 9 已 到 4 -入 各 
一 8 一 虹 】 0 和 05 和 3 0 1 0 4 D3 0 A 0 Od 6 5 0 G87 O05 OM LO 


重心 距离 聚 类 图 ,如 下 图 所 示 。 


重心 距离 聚 类 法 





























F72131113 161821209 8 1719422101514 
水 安全 指标 


(5 题 图 ) 
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1. 答案 : 设 羡 上 的 模糊 集 “严重 污染 程度 "， 则 A 可 以 表示 为 : 
0.3/x1+0.7/x+0. 9/zxs 

或 A={(zx1,0.3), (zx,0.7), (zs ,0.9)} 
2. 管 案 : 模糊 矩阵 R 一 (mi ),xn， 满 足 


A= 
A= 























@ 自 反 性 : rs 二 1 
@ ”对称 性 : ry 二 ri 
@ 传递 性 : R RSR 
1.0 0.5 0.9 1.0 0.5 0.9 1.0 0.5 0.9 
及 *R 一 |0.5 1.0 0.5|» |0.5 1.0 ol|- 0.5 1.0 0.5|=R 
0.9 0.5 1.0 0.9° 0.5 1.0, 0.9 0.5 1.0 
LO” 0B. 0D 
则 R= |0.5 1.0 0.5| 是 一 个 模糊 等 价 矩阵 。 
9 05 ,工人 
3， 答 案 : 模糊 矩阵 R 一 (my ),x。， 满 足 
@ 自 反 性 : rs 二 1 
@ 对称 性 ; 方 一 六 


@ 传递 性 : R RER 
经 过 计算 民 。R* 二 R*， 故 R* 就 是 所 求 的 模糊 等 价 和 矩阵 。 
1.0000 0.0000 0.9412 0.9412 
_|0.0000 1.0000 0.0000 0.0000 
|o.9412 0.0000 1.0000 0.9412 
0.9412 0.0000 0.9412 0.0000 
4. 答案: 
(1) 数据 标准 化 
为 了 使 不 同 量 纲 的 数据 也 能 进行 比较 ， 用 标准 差 变 换 、 极 差 变换 等 方法 对 数据 进行 适当 
的 变换 。 根 据 模糊 矩阵 的 要 求 将 数据 压缩 到 区 间 [0，1]。 
2) 建立 模 糊 相 似 和 矩阵 
模糊 相似 和 矩阵 的 建立 ， 即 标 出 衡量 被 分 类 对 象 间 相 似 程度 的 统计 量 m (7 一 1，2，… 
2， 常 使 用 的 方法 有 : 相似 系数 法 、 距 离 法 、 主 观 评分 法 等 。 
(3) 聚 类 分 析 
将 模糊 相似 矩阵 进行 聚 类 分 析 ， 常 用 的 方法 有 : 模糊 等 从 矩阵 聚 类 法 、 直 接 聚 类 法 等 。 
5. 答案 : 
(1) 传 递 闭 包 法 
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1000 07942 08765 04055 08856 0.4894 03877 
0Q7942 1000 46406 03373 46617 0Q5526 0429 
087165 0Q6406 10000 0Q07063 0912 0Q6340 06518 
经 计算 , R= |0.4055 Q3373 07063 10000 05582 0Q0822 Q8256 
08856 0Q6617 0912 05582 10000 0539 Q5988 
Qd4s94 05526 06340 0822 0539 10000 08180 
Q3877 0429 Q6518 0856 Q5988 0Q880 10000， 
R'。R' 二 R'， 所 以 传递 闭 包 为 R=R'。 
1.0000 0.7942 0.8856 0.7063 0.8856 0. 
0.7942 1.0000 7942 0.7063 0.7942 0.7063 0.7063 
0.8856 0.7942 0000 0.7063 0.9112 0.7063 0.7063 
R'= |0.7063 0.7063 7063 1.0000 0.7063 0.8522 0.8256 
0.8856 0.7942 9112 0.7063 1.0000 0.7063 0.7063 
0. 0. 1 
0. 0， 


.706 3 0.706 3 


,7063 0.7063 0.7063 0.8522 0.7063 1.0000 0.8256 


0.706 3 0.706 3 7063 0.8256 0.7063 0.8256 1.0000 
®@ 当 ) 三 1.0000 时 


此 时 只 有 对 角 线 元 素 大 于 等 于 1， 故 对 角 线 元 素 全 变 成 1， 其 余 全 部 为 0， 成 为 单位 矩阵 ， 
共 分 为 了 类 : {tw})，(tw)}，{i)}，(w)，(us)，(w)，({wus} 使 把 每 一 个 元 素 分 为 一 类 ， 是 最 细 
的 分 类 。 

@ 当 ) 二 0.885 6 时 

此 时 小 于 0. 885 6 的 元 素 都 变 成 0， 大 于 等 于 0. 885 6 的 元 素 变 成 1， 即 有 : 
1 1 


opre 


I 
o-oo 
oooooreo 
oo-o-o 
ooocormooe 
oo-ooor- 
o-oooopc 


0 
0 
0 
0 
0 
0 
1 


0 
可 以 看 出 共 分 5 类 : {uw ws ws), (we), {uw), (us}, fw)。 
®@ 当 ) 二 0.794 2 时 
此 时 小 于 0. 794 2 的 元 素 都 变 成 0， 大 于 等 于 0. 794 2 的 元 素 变 成 1， 即 有 : 
1 0 








名 

1 
Sorcom-- 
ormeoeornmr 
Dormoeormr 
rrormeee 
Dormeor 一 
-H+orooo 
-o-oo 





可 以 看 出 共 分 2 类 : {us ws was， wus}, (i, us wr)e 


®@ 当 ) 三 0.063 4 时 


和 矩阵 的 所 有 元 素 都 变 成 1， 只 分 成 1 类， 是 最 粗 的 分 类 。 


《2) 直 接 聚 类 法 


1.0 0.8 1.0 
0.8 1.0 0.4 
1.0 0.4 1.0 


R=|0.2 0.3 0.7 


和 
0.5 0.6 0.6 
0.3 0.3 0.5 


R 为 论 域 上 的 模糊 相似 矩阵 


@ 取 R 中 的 最 大 值 41 一 1，ma 一 器 ， 这 样 ， 在 为 一 1 水 平 上 的 等 价 类 为 : {ww，w， 


us}, {ua), (uu), (us}, (ur) 


@ 取 R 中 的 次 大 值 2: 二 0.8， 由 于 ns 二 ms 二 rw 二 rr 二 0.8， 故 相似 类 为 : {ww，uw， ww， 


we), liu, us, Ur} 


i 区 可 
oo 


0.8 0.5 
0.7 0.6 
1.0 0.6 
0.5 0.8 
1.0 0.2 
WZ 6 
0.7 0.8 


0.3 
0.3 
0.5 
0.6 
0.7 
0.8 
1.0 


部 分 思考 题 答案 


@ 取 RR 中 的 第 三 大 值 A 二 0.7， 由 于 rw 二 rs 二 rs 二 0.7， 所 有 元 素 只 分 为 一 类 。 
6。 管 案 : 利用 传递 闭 包 法 : 


1.0000 0.9321 
0.9321 1.0000 
0.6744 0.6744 
0.9321 0.9359 
R=|0.6744 0.6744 
0.6744 0.6744 
0.6744 0.6744 
0.9321 0.9550 
0.9321 0.9359 
®@ 当 )>1.0000 时 


此 时 只 有 对 角 线 元 素 大 于 等 于 1， 故 对 角 线 元 素 全 变 成 1， 其 余 全 部 为 0， 成 为 单位 矩阵 ， 
共 分 为 9 类 {tn)，{w)，{w)，(tw)，(ws}，{iw)，{w}，{ws}，{w}》 使 把 每 一 个 元 素 分 为 


一 类 ， 是 最 细 的 分 类 。 


0.6744 0.9321 
0.6744 0.9359 
1.0000 0.6744 
0.6744 1.0000 
0.7959 0.6744 
0.7959 0.6744 
0.7959 0.6744 
0.6744 0.9359 
0.6744 0.9471 


0.674 4 
0.6744 
0.7959 
0.6744 
10000 
0.990 3 
0.9895 
0.6744 
0.6744 


0.6744 
0.674 4 
0.7959 
0.674 4 
0.990 3 
10000 
0.9895 
0.6744 
0.6744 





0.6744 
0.6744 
0.7959 
0.674 4 
0.989 5 
0.989 5 
1.0000 
0.674 4 
0.674 4 


0.932 1 
0.955 0 
0.674 4 
0.935 9 
0.674 4 
0.674 4 
0.6744 
1.0000 
0.935 9 


0.932 1 
0.935 9 
0.674 4 
0.947 1 
0.674 4 
0.674 4 
0.674 4 
0.935 9 
1.000 0 


283 





0 0 0 


1 


0001 





FooNocoom 
i 
号 
oocoecr-n-nrneoas- 
已 吾 百 避 闪 中 口 扣 避 二 
ee 有 
-memneoeooco- -二 
ooenrnoooocoococ 上 -< 
号 
re-rnoecenn” 
mmoeomneoeoe-mn 一 
喜 

二 

时 


当 ) 三 0.932 1 时 
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@ 当 ) 三 0.794 2 时 


及 一 |0 





ER 
EE EE 

EEEEEEDEEEEEEEEEILISS 
SScssssssssssssssssos- 
站 证 训 记 所 
fs 人 
EE 


WawaomoNNnMOOMmNNOOON 


于 


PonONGLPOWONMOOOVm0 


EE 二 


的 国 国 加 站 一 四 一 一 加 二 中 oo 上 口上 mon 


EE EE 


"nwOOWNTHN COMNONM ON 


SS 


二 


名 
名 
3 
SS 
~oaAOMmmMPOMnONMMGno 
Ss 
上 


人 六 疙 人 
EEEEPEESEEEELEEEESD 
SGGcGcccGdGeGSGSGnmGSS6GSGGSGS 
a 
Oe 
SESELRIEER2 二 Ret 


fu, ws Ws Un We), (us Us, uss U7), 


@ 当 ) 二 0.674 4 时 


0.8697 0.960 1 0.950 3 0.724 





矩阵 的 所 有 元 素 都 变 成 1， 只 分 成 1 类 ， 是 最 粗 的 分 类 。 
7， 答案 ; 利用 传递 闭 包 法 : 


可 以 看 出 共 分 2 类 ， 
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@ 当 :=1.00 时 

此 时 只 有 对 角 线 元 素 大 于 等 于 1， 故 对 角 线 元 素 全 变 成 1， 其 余 全 部 为 0， 成 为 单位 矩阵 ， 
共 分 为 20 类 ， 每 一 个 元 素 分 为 一 类 ， 是 最 细 的 分 类 。 

@ 当 )>0.95 时 

可 以 看 出 共 分 11 类 : (aa we, wo Wiss ws us} {uss ws}, {ua}, {i}, (us, ws}, 
{us} {ur}, {uur}, (aas Wir, wa), {us}, (wus), 

®@ 当 ) 三 0.90 时 

可 以 看 出 共 分 6 类 :fi ws ss Ws to Ws tas das ttr， is，azug，auo}， 
{uss wus, ue}, (ue)}, (ur)}, (us}, tu 

®@ 当 ) 三 0.85 时 

可 以 看 出 共 分 2 类 :， {us drs Ws ta ss Ue, uss Wr Wos Mu， Wy, Wss tiss 
tiss uirs tgs Ws» ue}, {ur} 

@ 当 ) 三 0.80 时 

矩阵 的 所 有 元 素 都 变 成 1， 只 分 成 1 类， 是 最 粗 的 分 类 ， 


4 答案: 
(DD 距离 判 别 方法 
四 将 一 级 标准 记 为 Gl ， 二 级 标准 记 为 Cs 。 经 过 计算 ， 各 类 样本 的 指标 均值 为 ， 





严 一 (0.0699 0.0285 0.141 5) 
总 体 协 方差 的 逆 矩 阵 为 ， 


0.0005 一 0.0001 一 0.0006 
一 0.000 1 0.000 7 0.000 3 
一 0.0006 0.000 3 0.002 4 
2.470 8 0.150 6 0.557 | 


市 二 








D1=10X|0.1506 15155 一 0.1308 


0.5578 一 0.130 8 0.557 7 





五: 一 六 ) = (一 308.781 2，3. 601 6, 一 136. 314 9)’, 
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从 而 判别 函数 : 
WO) = (x—D' En — pe) 
一 一 308.781 2(zxi 一 0.069 9) 十 3. 601 6(zz 一 0.028 5) 
一 136. 314 9(zxs 一 0.141 5) 
将 5 个 待 判 的 样本 数据 分 别 代 和 人 到 上 面 的 判别 函数 中 ， 可 以 分 别 求 得 函数 值 为 ， 
Wi=—5.570 4, W;:=12. 163 9, Ws=3.102 1, 
W,=17. 822 5, Ws=32.691 8 
Wi 一 0，W:>0,，W:>0，W,>0，Ws: >0 根据 判别 函数 的 定义 可 以 判定 样本 1 属于 


Ge， 样本 2 一 5 属于 GG。 
加 将 二 级 标准 记 为 C, ， 三 级 标准 记 为 C* 。 经 过 计算 ， 各 类 样本 的 指标 均值 为 ; 


be 
~ 记过 可 ’ 
二 2 x=(0.1149 0.0295 0.219 0) 


记 = Dy 一 了 = (0.2212 0.1261 0.3854)’ 
名 


本 
p=(0.1681 0.0778 0.302 2) 

总 体 协 方差 的 逆 矩 阵 为 ， 
0.0008 0.0002 一 0.0004 
0.0002 0.0003 0.0001 

一 0.0004 0.0001 0.0028 

1.5901 一 1.0052 0.236 1 


下 二 








一 1.0052 3.9423 一 0.243 2 
0.2360 一 0.243 2 0.398 6 
Ei — ja) = (一 111.399 8, 一 233.115 6, 一 67.973 3)’, 
从 而 判别 函数 : 
W(x) = Cr 一 癌 ' 卫 1 — ju) 
一 一 111.399 8(zi 一 0.168 1) 一 233. 115 6(zs 一 0.077 8) 一 
67.973 3(x3 一 0. 302 2) 


将 5 个 待 判 的 样本 数据 分 别 代入 到 上 面 的 判别 函数 中 ， 可 以 分 别 求 得 函数 值 为: 
Wi 一 29.375 1, W:=39.285 7，W: 一 35. 535 7， 


W,=40.250 1, Ws=49.266 5 
有 二 0，W: 二 0，Ws 二 0， 凤 ,二 0， 允 :二 0 根据 判别 函数 的 定义 ， 可 以 判定 样本 1 一 5 属于 
G1， 即 样本 1 一 5 不 属于 三 级 。 
综合 D， 四 判定 样本 1 属于 C， 样 本 2 一 5 属于 Gi。 


BD! =10x 
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(2)Fisher 判别 方法 
四 将 一 级 标准 记 为 Gi， 二 级 标准 记 为 Ce 。 
根据 距离 判别 中 的 分 析 数 据 ， 可 以 得 到 : 


w= 二 (一 js) Bf 十 je) = 一 40.778 0 
3 一 ct 一 (向 一 应 ) 了 -ix 一 一 308.781 2x 十 3.601 6zrs 一 136.314 9zs 
| 
=i Dy =—16.3428 


m ft 


= Dy =—65.2132 


人 
即 y?5 >w>35 
将 样本 1，2，3，4，5 的 数据 分 别 代 人 到 判别 函数 中 ， 得 到 ， 
y=—46.348 4， 交 一 一 28. 614 0， 力 一 一 37.675 8, 
=—22.955 5, y=—8.086 2 


根据 Fisher 判别 准则 ， 可 以 判定 样本 1 属于 G:， 样 本 2 一 5 属于 Gi 。 这 个 结果 和 上 距离 判 
别 的 结果 是 一 致 的 。 


加 将 二 级 标准 记 为 Gl ， 三 级 标准 记 为 Ge 。 
根据 距离 判别 中 的 分 析 数 据 ， 可 以 得 到 : 
w= 二 (一 ja) D7 (n+p) 一 一 57.399 3 


y=¢ex= (hh —j) Bt 一 一 111. 399 8zi 一 233. 115 6x» — 67, 973 3zs 
lv 


mh 


my 


3 =—34.5678 


= 


S 
5 = 1 Dy = 一 80.2309 


太守 
BT > % > 
将 样本 1，2，3，4，5 的 数据 分 别 代 人 到 判别 函数 中 ， 得 到 : 
n=—28.024 2, y=—18. 113 6，m 一 一 21.863 7， 
一 一 17.149 2， 一 一 8. 132 9 
根据 Fisher 判别 准则 ， 可 以 判定 样本 1 一 5 属于 Gl， 即 二 级 。 
综合 DO， 四 判定 样本 1 属于 Ce， 样本 2 一 5 属于 G 。 
这 个 结果 和 距离 判别 的 结果 是 一 致 的 
5、 管 案 : 
根据 表 中 的 数据 ， 得 到 : 


所 一 (4.2800 22.1400 12.0233 51.183 3) 
a=(1.0700 5.2725 2.7300 20.6750)’ 





环境 统计 分 析 
288 


jn —hs = (3.2100 16.8675 9.2933 30.5083)/ 
Mm 二 je = (5.3500 27.4125 14.7533 71.858 3)’ 
FR=(2.6750 13.7062 7.3767 35.9292)” 


0.7725 一 0.1690 0.5781 3.178 7 
一 0.1690 28.6615 13.3399 一 4.9706 


ee 0.5781 13.3399 8.4187 20.8874 
3.1787 一 4.9706 20.8874 272.465 8 

13. 185 0 10.8171 一 22.417 5 1.762 1 

pa Ey 10.817 1 9.920 8 一 20.4975 1.626 1 


一 22.4175 一 20.4975 42.5002 一 3.3705 
1.762 1 1.6261 一 3.3705 0.2712 


加 一直 (fn 一 ja) B71 jn) 一 460.6988 


y= cx= (fh — ja) Ex 
= 70. 205 1zi 十 61. 183 0z* 一 125. 562 0zxs 十 10. 034 8z 


只 


T= 5)y 一 659.0068 


| 





21 = 262.390 9 


By™ > > 3 
将 样本 A，B 的 数据 分 别 代 入 到 判别 函数 中 ， 得到， 
=561. 596 4, yz =445.074 8 
根据 Fisher 判别 准则 ， 样 本 人 属于 甲 地 ， 样 本 已 属于 也 地 。 


3. 答案 ， 
原 决 策 矩 阵 ， 
2.0000 0.0100 0.2000 
4.0000 0.0250 0.5000 
6.0000 0.0500 1.0000 
10.0000 0.1000 1.5000 
15.0000 0.2000 2.0000 
X=| 7.1000 0.1440 7.0000 
5.7000 0.1020 5.2700 
5.4000 0.1070 3.3300 
4.0000 0.0560 1.7100 
4.2000 0.0590 1.9000 
4.7000 0.0780 2.8200 
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标准 化 后 处 理 的 矩阵 为 : 
一 1.1751 —1.3691 一 1.1040 
一 0.6143 一 1.0939 一 0.958 4 
一 0.0535 一 0.6354 一 0.715 9 
1.068 1 0.2818 一 0.473 3 
2.470 1 2.1162 一 0.2307 
A= 0.254 9 1.088 9 2.1952 
一 0.137 6 0.3185 1.355 8 
一 0.221 8 0.410 2 0.414 6 
一 0.614 3 一 0.525 3 一 0.37114 
一 0.558 2 一 0.4703 一 0.279 2 
一 0.4180 一 0.1217 0.1672 
计算 标准 化 数据 矩阵 4 的 相关 矩阵 。 
1.0000 0.8622 0.144 4 
0.8622 1.0000 0.5692 
0.1444 0.5692 1.0000 
求 及 的 特征 值 h: 三 jz 三 ns， 以 及 对 应 的 特征 向 量 ww:，ws， 要 求 它们 是 标准 正 交 的 。 
0.3466 一 0.378 3 一 0.3587 
0.4011 一 0.0394 sl- tha, W) 


0.2523 0.5822 一 0.203 4 
=2.1030 X=0.8676 X=0.0294 








R= 








U= 





累计 贡献 率 


第 一 、 第 二 和 第 三 个 成 分 的 累计 贡献 率 分 别 为 
0.7010 0.9902 1.0000 
求 第 一 主 成 分 下， 有 : 
Fi=Am =(—1.2350 一 0.8935 一 0.4540 0.3638 1.6466 1.0791 
0.4222 0.1923 一 0.5173 一 0.4525 一 0.151 5) 


Fi=(—1.2350 一 0.8935 一 0.4540 0.3638 1.6466 1.0791 0.4222 0.1923 
一 0.5173 一 0.4525 一 0.151 5) 
按 FF 由 小 到 大 的 顺序 排列 方案 的 优先 次 序 ， 结 果 是 : 
a<e<e<ea<ev en ee ee es 
根据 上 面 的 计算 结果 各 地 区 环境 质量 从 优 到 劣 依 次 为 ， 东 部 沿岸 区 、 湖 心 区 、 全 部 平 
均 、 西 部 沿岸 区 、 梅 梁 湖 、 五 里 湖 。 因 为 第 一 主 成 分 是 高 锰 酸 盐 指 数 ， 所 以 根据 地 表 水 环境 
质量 标准 ， 可 以 判断 : 东部 沿岸 区 为 IT 类 ， 湖 心 区 、 全 部 平均 、 西 部 沿岸 区 、 梅 梁 湖 为 四 类 ， 
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五 里 湖 为 W 类 。 


原 决策 矩阵 


4. 答案 : 








的 矩阵 为 


标准 化 后 处 








Nn-TOOMOnMMANNOMONMmT To 
让 





sososc2scsssccsnsscossscscsn 
| dh 
wienmmo omninoone 
序 3SSeREzSSNRSRBSSSSSSDRS 
Ee 
BESSC 人 SESSARsaEeE 
mcsccccscnccsccsscccs-cscsccsscs 
hea A Ee A De Lb 
PMOmmnT 
pe Te 
SR 
Gt Ett 
Nenscsccscscscsncsnascscsc-m 
1 AL | 
ecooc 一 oa 局 
SSSRSS = 四 
呈 委 邓 区 乱世 三 ES 社 
S52 S888 有 
ssssasscs- oS 5 





加 各 一 四 本 DDNone 一 oaocaocn 


92: 
86( 


08! 
32: 
39: 
04: 
71 
14 
39。 
92: 
35 
77' 
70 
25 
09! 
87! 
19 
74 
99: 
6 

82( 
57 


一 0. 


012 3 一 0 

788 6 一 1 

593 8 

593 8 一 0 

821 1 

7020 一 1 

6695 一 1 
计算 标准 化 数据 矩阵 4 的 协 方差 矩阵 。 


0 
一 0 
一 0 
一 以 
一 0， 
一 0 
EA 
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1.0000 0.5256 0.6900 0.5207 0.5351 0.2680 一 0.0611 
0.5256 1.0000 0.6520 0.8716 0.8920 0.4949 一 0.056 5 
0.6900 0.6520 1.0000 0.8385 0.5939 0.6953 0.0583 
Cs 0.5207 0.8716 0.8385 1.0000 0.7852 0.6553 0.023 4 
0. 535 1 0.8920 0.5939 0.7852 1.0000 0.5051 0.029 7 
0.2680 0.4949 0.6953 0.6553 0.5051 1.0000 0.0548 
0. 


一 0.0611 一 0.0565 0.0583 0.0234 0.0297 0.0548 1.0000 
求 C 的 特征 值 N 三 jz 三 为 三 Ni 全 和 三 N 二 jz， 以 及 对 应 的 特征 向 量 田 ， 本 ， 由 ， mu ， 格 ，w， 
ww， 要 求 它们 是 标准 正 交 的 。 
01379 一 0124 03607 Ql801 01351 —0.114 0125 
01788 一 00673 00185 一 01950 一 00532 一 0.2802 一 0.2265 
0172 QM67 00030 01950 一 01694 0.1865 一 02666 
U=|0.1878 00202 一 0.0664 一 00459 —0.2304 00021 03518 
01731 一 00161 0.0M86 一 02082 01997 02737 0.0065 
01424 01259 一 03506 01418 02079 一 01071 0.0354 
0.0028 06014 01522 一 00340 00042 一 00389 一 0.0008 
= Wa Wa Wy Us Us U1) 
A1=4.2240 X=1.0348 X=0.7226 X=0.6498 

2s=0.240 7 Xs=0.0782 X41=0.0500 





累计 贡献 率 
各 个 成 分 的 累计 贡献 率 分 别 为 : 
0.6034 0.7513 0.8545 0.9473 0.9817 0.9929 1.0000 

求 第 一 主 成 分 Fl， 有 

Fi=Aui= 
(1.3997 0.7402 0.7709 0.0888 —0.1163 一 0.0380 0.3344 1.3014 
1.488 5 一 0.0422 一 0.6537 0.3299 0.8590 一 0.839 8 一 1.0495 0.4322 
一 1.0417 一 0.4037 一 0.6787 一 0.974 3 一 0.978 2 一 0.9290) 


Fi=(1.3997 0.7402 0.7709 0.0888 一 0.1163 一 0.0380 0.3344 1.3014 
1.4885 一 0.0422 一 0.6537 0.3299 0.8590 一 0.8398 一 1.0495 0.4322 
一 1.0417 一 0.4037 一 0.6787 一 0.974 3 一 0.978 2 一 0.929 0) 
按 Fi 由 大 到 小 的 顺序 排列 方案 的 优先 次 序 ， 结 果 是 : 
eis>er >en >en>en>en>en >en>es>e >en>0> 
@ es >er >es>e>e >ens>a>e 
根据 上 面 的 计算 结果 :下 标 就 是 表示 各 个 采样 点 序号 ,表示 的 结果 就 是 在 Cd 这 个 主 成 分 
下 ,各 个 采样 点 由 优 到 劣 的 排列 顺序 。 
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3 答案 ; 
第 一 步 ， 对 观测 数据 进行 标准 化 处 理 ， 然 后 把 标准 化 后 的 数据 用 矩阵 X 表 示 。 
一 0.5355 一 1.2859 0.4346 一 0.8169 0.7853 
一 0.7528 一 0.9285 2.7361 一 1.2593 一 0.6717 
一 0.8615 一 0.3252 一 0.1799 一 0.7874 一 1.2644 
2.3691 一 0.8126 一 0.4297 0.5397 0.6618 
一 0.3576 0.3455 一 0.3763 0.0678 一 0.869 3 
一 0.4070 0.1107 一 0.3777 2.3681 一 1.2397 
一 0.5058 一 0.4931 一 0.3833 一 0.3156 1.4768 
0.5908 1.2493 一 0.4907 一 0.1091 1.0323 
0.8575 1.9340 一 0.4854 0.3332 一 0.375 4 
一 0.3972 0.2058 一 0.4477 一 0.0206 0.4643 
第 二 步 ， 求 样本 的 相关 矩阵 有。 
1.0000 0.2376 一 0.3557 0.3048 0.3238 
0.2376 1.0000 —0.4798 0.3314 一 0.113 3 
R=|—0.3557 一 0.4798 1.0000 一 0.5321 一 0.206 2 
0.3048 0.3314 一 0.5321 1.0000 一 0.2390 
0.3238 一 0.1133 一 0.206 2 一 0.2390 1.0000 
第 三 步 , 求 R 的 特征 值 X 及 其 相应 的 特征 向 量 。 








R 的 特征 值 及 其 累计 方差 贡献 率 分 别 为 : 
R 的 特征 值 及 其 累计 方差 贡献 率 
特征 值 2.1459 1.3147 0.7009 0.5872 0.2512 





累计 方差 贡献 率 /% 0.4292 0.6921 0.8323 0.9498 1.0000 


可 以 看 出 前 三 个 特征 根 的 累计 方差 贡献 率 已 超过 75%， 因 此 我 们 选择 三 个 公共 因子 就 可 
以 了 。 
它们 对 应 的 特征 向 量 : 
@=(0.431 8 0.4697 一 0.5779 0.5034 0.0746) 
@=(0.4115 一 0.2304 一 0.0710 一 0.3396 0.8107) 
@=(—0.4017 0.7101 一 0.1614 一 0.5285 0.170 2) 
第 四 步 ， 求 因子 载荷 矩阵 4。 
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根据 式 (8. 17) 
0.6325 0.4719 —0.3363 
0.6881 一 0.2642 0.5945 
A=(VNe Vhse: Vises)= |—0.8466 一 0.0814 —0.1351 
0.7375 一 0.389 4 —0.4425 
0.1093 0.9295 0.1425 
0.735 8 
0.8967 
共同 度 ， h= |0.7415 
0.891 3 
0.896 3 
各 个 公 因子 /; 对 所 有 变量 的 贡献 8 一 (2.1459 1.314 7 0.700 9) 
第 五 步 ， 对 因子 载荷 矩阵 4 作 正 交 旋 转 后 得 到 的 因子 载荷 矩阵 为 
0.0901 0.5463 一 0.655 2 
0.9377 一 0.0791 一 0.1059 
Ai=|—0.6469 一 0.2461 0.5124 
0.2485 一 0.2875 一 0.864 2 
一 0.0023 0.9430 0.0842 
各 个 公 因子 万 对 所 有 变量 的 贡献 8 二 (1. 367 5 1.337 1 1.457 0) 


0.735 8 
0.896 7 
共同 度 不 变 ， h= |0.7415 
0.891 3 
0. 896 3 
第 六 步 ， 求 因子 得 分 。 
(1) 求 特殊 向 量 方差 w。 
0.2642 0.0000 0.0000 0.0000 0.0000 
0.0000 0.1033 0.0000 0.0000 0.0000 
yw 一 |0.0000 0.0000 0.2585 0.0000 0.0000 
0.0000 0.0000 0.0000 0.1087 0.0000 


0.0000 0.0000 0.0000 0.0000 0.1037 
(2) 运 用 式 (8. 30)， 得 到 因子 得 分 F， 结 果 见 下 表 。 
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因子 得 分 表 
因子 得 分 
nd nn fi 万 
1 一 0.990 1 0.6180 0.600 8 
2 —1.5240 一 0.7505 1.263 1 
3 0.052 1 一 0.950 2 0.6706 
4 一 1.1087 1.2921 —1.8444 
5 0.4721 一 0.7390 0.066 3 
6 一 0.1226 一 1.6650 一 1.662 4 
名 一 0.046 5 1.058 2 0.485 8 
8 1.2060 0.985 4 0.278 6 
9 1.598 9 —0. 100 4 一 0.153 1 
10 0.462 9 0.2514 0.2946 
4 答案; 


第 一 步 ， 对 观测 数据 进行 标准 化 处 理 ， 然 后 把 标准 化 后 的 数据 用 矩阵 发表 示 。 


0.045 1 一 0.033 2 一 0. 
一 0.376 1 一 1.316 3 1 
一 1.037 9 2.002 2 0. 
一 ].2786 0.4535 一 0. 

1.7299 一 0.8296 一 1. 

0.5265 一 0.564 1 1 
一 0.436 2 0.188 0 0. 

0.827 3 0.0996 一 1. 
第 二 步 ， 求 样本 的 相关 和 矩阵 R。 

1.0000 一 0.5566 一 0. 
一 0.556 6 1.0000 一 0. 
一 0.443 4 一 0.067 3 下 

0.249 3 一 0.0919 0. 
一 0.519 5 0.3770 一 0. 

0.2139 一 0.213 6 0. 





9797 


.2925 
.601 0 


0906 
0455 
2925 
0412 
1114 


443 4 
0673 
0000 
123 1 
0819 
517 1 


一 1.2907 
一 0.557 5 
0.053 5 
一 0.048 4 
1.580 9 
0.460 8 
0.9700 
一 1.168 5 


0.249 3 
一 0.0919 
0. 123 1 
1.0000 
一 0.145 0 
0.203 1 


第 三 步 , 求 R 的 特征 值 * 及 其 相应 的 特征 向 量 。 


-< 
一 0. 
0. 


767 1 
548 5 
017 5 
250 1 


.705 7 
.454 2 
.2970 


504 9 


).519 5 


3770 


.081 9 
.145 0 
.0000 
.182 5 


一 0. 
一 0. 
一 小 
一 0. 
一 0. 

2. 
一 0. 
一 0. 


.213 6 


3670 
397 7 
323 1 
352 3 
327 2 
474 1 
337 7 
369 1 


213 9 


517 1 
203 1 
182 5 
000 0 
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及 的 特征 值 及 其 累计 方差 贡献 率 分 别 为 : 
R 的 特征 值 及 其 累计 方差 贡献 率 
特征 值 2.1828 1.6067 0.9195 0.6468 0.5689 0.0752 





累计 方差 贡献 率 /% 0.3638 0.6316 0.7848 0.8926 0.9875 1.0000 


可 以 看 出 前 三 个 特征 根 的 累计 方差 贡献 率 已 超过 75%， 因 此 我 们 选择 三 个 公共 因子 就 可 
以 了 。 
它们 对 应 的 特征 向 量 : 
@=(0.563 1 一 0.5044 0.0237 0.2771 一 0.4941 03271)’ 
@=(—0.3556 0.0486 0.7430 0.1696 0.0320 0.5379) 
es=(0.0723 0.3436 一 0.1647 0.8996 0.1944 —0.0510)’ 
第 四 步 ， 求 因子 载荷 矩阵 A。 
根据 式 (8. 17) 
0.8319 一 0.4508 0.0693 
一 0.7453 0.0616 0.3295 
0.0350 0.9418 一 0.1579 
A=(Wha VRe VRe) 一 | 04094 0.2150 0.8626 
一 0.7301 0.0406 0.1864 
0.4833 0.6818 —0.0489 
0.900 0 
0.667 8 
0.913 2 
共同 度 ， 4 |0.9579 
0.569 4 
0.7008 
各 个 公 因子 f; 对 所 有 变量 的 贡献 8 二 (2.182 8 1.6067 0.919 5) 
第 五 步 ， 对 因子 载荷 矩阵 A 作 正 交 旋 转 后 得 到 的 因子 载荷 矩阵 为 : 
0.8565 一 0.2939 0.2831 
一 0.8016 —0.1423: 0.0700 
。， |-o1442 0.9445 一 0.0187 
| oora7 0.157 0.9691 
一 0.7404 一 0.1320 一 0.0614 
0.3002 0.7557 0.1988 
各 个 公 因 子 /f; 对 所 有 变量 的 贡献 8 一 (2.0406 1.6006 1.067 8) 
第 六 步 ， 求 因子 得 分 。 
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(1) 求 特殊 向 量 方差 w。 
0.1000 0.0000 0.0000 0.0000 0.0000 0.0000 
0.0000 0.3322 0.0000 0.0000 0.0000 0.0000 
0.0000 0.0000 0.0868 0.0000 0.0000 0.0000 
ya 0.0000 0.0000 0.0000 0.0421 0.0000 0.0000 
0.0000 0.0000 0.0000 0.0000 0.4306 0.0000 
0.0000 0.0000 0.0000 0.0000 0.0000 0.2992 
(2) 运 用 式 (8. 30)， 得 到 因子 得 分 F， 结 果 见 下 表 。 
因子 得 分 表 
因子 得 分 
fi fa 万 
1 一 0.021 7 0.007 4 0.064 3 
2 一 0.033 8 0.0440 0.1198 
3 一 0.086 2 0.039 1 0.199 8 
4 一 0.124 8 0.013 6 0.194 0 
5 一 0.0399 0.005 2 0.336 3 
6 0.113 9 0.668 5 0.326 9 
7 一 0.068 8 0.027 4 0.277 4 
8 一 0.049 7 一 0.005 0 0.085 4 
5. 答案 ， 
第 一 步 ， 对 观测 数据 进行 标准 化 处 理 ， 然 后 把 标准 化 后 的 数据 用 矩阵 X 表示 。 
11682 17279 一 05658 一 0587 一 05866 23020 一 04214 
13811 1363 一 07435 一 0954 一 L087 一 01703 一 07568 
—0.5655 —0.5754 一 05777 Q209 Q1282 —0.6792 一 05902 
QO002 3 00501 一 07435 一 0580 一 06020 一 05285 一 7547 
X=|—0913 一 08837 1652 1697 16%52 0525 15933 
一 09812 —08867 Q773 0811 Q792 0512 06415 
一 L022 一 09756 14517 1168 1252 一 0566 15871 
1158 1 04621 -0553 一 0996 一 08316 04465 一 055114 
一 0194 一 0249 —0.6584 一 92I7 一 0688 —0.951 一 0747 4 
第 二 步 ， 求 样本 的 相关 矩阵 R。 
1.0000 0.9466 一 0.7328 一 08312 一 0.8569 0.490 4 一 07042 
0.946 6 10000 一 0.6659 一 0.7278 一 0.770 3 06270 一 06285 
一 07328 一 0.6659 1.0000 0.9407 0.9526 一 0.0206 0.9960 
及 一 | 一 08312 一 07278 0.9407 1.0000 0.9915 一 0.063 3 0.9324 
一 0.8569 一 0.7703 0.9526 0.9915 10000 一 0.086 8 0.943 1 
0.4904 0.6270 一 00206 一 0.0633 一 0.086 8 10000 0.0247 
一 07042 一 0.6285 0.9960 0.932 4 0.9431 0.0247 1.000 0. 
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第 三 步 , 求 R 的 特征 值 * 及 其 相应 的 特征 向 量 - 
R 的 特征 值 及 其 累计 方差 贡献 率 分 别 为 : 
R 的 特征 值 及 其 累计 方差 贡献 率 
特征 值 5.2769 1.4463 0.1870 0.0585 0.0265 0.0026 0.0021 
累计 方差 贡献 率 /% 0.753 8 0.9605 0.9872 0.9955 0.9993 0.9997 1.0000 











可 以 看 出 前 两 个 特征 根 的 累计 方差 贡献 率 已 超过 85% ， 因 此 我 们 选择 两 个 公共 因子 就 可 
以 了 。 
它们 对 应 的 特征 向 量 : 
@=(—0.3995 一 0.3761 0.4083 0.4195 0. 4268 一 0.1155 0.4010)’ 
@=(0.2601 0.3841 0.2363 0.1682 0.1435 0. 777 8 0.274 0)” 
第 四 步 ， 求 因子 载荷 矩阵 A。 


根据 式 (8. 17) 
一 0.9177 0.3129 
一 0.8639 0.4619 
0.9379 0.284 2 
A=(VNe Vhse)=| 0.9637 0.2023 
0.980 3 0.1726 
一 0.2652 0.9355 
0.921 2 0.329 5 
0.940 1 
0.959 7 
0.960 4 
共同 度 ， h= | 0.969 6 
0.990 8 
0.9454 
0.957 2 


各 个 公 因 子 万 对 所 有 变量 的 贡献 & 一 (5.276 9 1.446 3) 
第 五 步 ， 对 因子 载荷 矩阵 A 作 正 交 旋 转 后 得 到 的 因子 载荷 矩阵 为 ; 

一 0.735 4 0.6319 

一 0.6300 0.750 2 

0.9763 一 0.085 2 

= 0.969 8 一 0.1708 

0.9742 一 0.2045 

0.1019 0.967 0 

0.9777 一 0.0370 
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各 个 公 因 子 万 对 所 有 变量 的 贡献 8 一 (4.746 5 1.976 7) 

第 六 步 ， 求 因子 得 分 。 

(1) 求 特殊 向 量 方差 w。 
0.0599 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 
0.0000 0.0403 0.0000 0.0000 0.0000 0.0000 0.0000 
0.0000 0.0000 0.0396 0.0000 0.0000 0.0000 0.0000 

y=|0.0000 0.0000 0.0000 0.0304 0.0000 0.0000 0.0000 

0.0000 0.0000 0.0000 0.0000 0.0092 0.0000 0.0000 
0.0000 0.0000 0.0000 0.0000 0.0000 0.0546 0.0000 
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.042 8 

(2) 运 用 式 (8. 30)， 得 到 因子 得 分 F， 结 果 见 下 表 。 








因子 得 分 表 
因子 得 分 
样本 序号 F 大 
1 1.2086 0.839 4 
2 0.755 4 0.545 3 
3 1.658 0 0.678 1 
4 1.1143 0.584 6 
5 2.894 9 1.033 8 
6 2 181 0.7912 
¥ 2.519 4 0.869 4 
8 0.9718 0.6390 
9 1.0510 0.538 6 
10 1.2086 0.839 4 


1， 答案 ， 当 一 个 变量 呈现 为 空间 分 布 时 ， 就 称 之 为 区 域 化 变量 (regionalized variable)， 
区 域 化 随机 变量 与 普通 随机 变量 不 同 ， 普 通 随机 变量 的 取 值 符合 某 种 概率 分 布 ， 而 区 域 化 随 
机 变量 则 根据 其 在 一 个 域内 的 位 置 不 同 而 取 值 。 也 就 是 说 ， 区 域 化 随机 变量 是 变通 随机 变量 
在 一 个 域内 确定 位 置 上 的 特定 取 值 ， 它 是 与 位 置 有 关 的 随机 函数 。 
区 域 化 随机 变量 之 间 的 差异 ， 可 以 用 空间 协 方差 来 表示 。 协 方差 又 叫做 半 方 差 ， 是 地 统 
计 学 中 的 关键 概念 。 在 概率 论 中 ， 随 机 向 量 (z，>) 的 协 方差 被 定义 为 : 
Cov(z, W=E[(z—E(z))(y—E(y))] 
将 环境 空间 信息 看 作成 随 空间 位 置 z 而 变化 的 区 域 化 变量 Z(z) (为 讨论 问题 方便 不 妨 设 
Z(z) 定 义 在 一 维 坐 标 轴 上 )， 那么 ， 当 空间 点 工 在 一 维 zx 轴 上 变化 时 ， 区 域 化 变量 Z(z) 在 点 
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工 和 z 十 处 的 值 Z(z) 与 Z(zx 十 有) 差 的 方差 一 半 定 义 为 区 域 化 变量 Z(z) 在 工 轴 方 向 上 的 变 差 
函数 ， 记 作 y(zx,， 有 )。 即 ; 


Kz, 月 = 去 DLZ(zD) 一 Z(z+ 有 ] 
根据 协 方差 函数 的 理论 ， 变 差 函 数 可 以 展开 为 : 
Ylz, 有 = 十 DLZ(z)—Z(z+h)] 


一 去 ELZCz) 一 ZKz+ 朋 了 一 去 (ELZCoD] 一 氏 Z(zHND]j 


2， 答案 ; 克 立 格 法 (Kriging) 也 称 空间 局 部 估计 或 空间 局 部 插值 ， 是 空间 统计 学 中 两 大 主 
要 方法 之 一 。 它 是 建立 在 变 差 函 数理 论 及 结构 分 析 基 础 上 的 ， 在 有 限 区 域内 对 区 域 化 变量 的 
取 值 进行 无 偏 最 优 估计 的 一 种 方法 。 这 种 方法 最 早 由 南非 矿业 工程 师 克 立 格 和 统计 学 家 西 舍 
尔 在 20 世纪 50 年 代 根据 样本 空间 位 置 不 同和 样本 的 相关 程度 的 不 同 ， 对 每 个 样本 赋予 一 定 
的 权重 ， 进 行 滑动 加 权 平均 ， 来 估计 未 知 样 点 上 样本 平均 值 的 一 种 方法 。 

克 立 格 法 实质 上 是 利用 区 域 化 变量 的 原始 数据 和 变 差 函数 的 结构 特点 ， 对 未 采样 点 的 区 
域 化 变量 的 取 值 进 行 线性 无 偏 最 优 估计 的 一 种 方法 。 从 数学 的 角度 讲 就 是 一 种 对 空间 分 布 的 
数据 求 线性 最 优 无 偏 内 插 估 计量 (best linear unbiased estimator， 简 写 为 BLUE) 的 一 种 方法 。 
更 具体 地 讲 ， 它 是 根据 待 估 样 点 (或 待 估 块 段 ) 有 限 邻 域内 若干 已 测定 的 样 点 数据 ， 在 认真 考 
虑 了 样 点 的 形状 、 大 小 和 空间 相互 位 置 关系 ， 它 们 与 待 估 样 点 间 相 互 空间 位 置 关系 以 及 变 差 
函数 提供 的 结构 信息 之 后 ， 对 该 待 估 样 点 值 进行 的 一 种 线性 无 偏 最 优 估计 。 

在 环境 科学 中 ， 经 常 遇 到 通过 采样 数据 推 求 污染 物 空间 分 布 的 现象 ， 比 如 土壤 污染 监测 ， 
这 时 可 以 根据 已 测定 的 样 点 数据 ， 通 过 克 立 格 法 求 线性 最 优 无 偏 内 插 估 计量 ， 估 算 污 染 物 在 
整个 区 域 的 空间 特征 。 

3. 答案 : 


XD 一 现 关 [5 一 18) 十 (18 一 16) 十 (16 一 5 十 (5 一 10)2 十 (13 一 15) 十 


《15 一 20): 十 (20 一 17): 十 (17 一 16)2 十 (10 一 10)z 十 (18 一 21)2 十 (12 一 14)2 十 
(14 一 15)? 十 (15 一 18)2 十 (18 一 16): 十 (17 一 19)z 十 (19 一 23)2 十 (23 一 21)? 十 
《21 一 18): 十 (15 一 13): 十 (13 一 10)2 十 (10 一 12)2 十 (12 一 17)z 十 (18 一 15)2 十 
《15 一 11) 十 (11 一 14)2 十 (14 一 19)2 十 (16 一 20): 十 (15 一 23): 十 (15 一 17)2 十 
(017 一 18): 十 (18 一 18)2 十 (18 一 20)2 十 (10 一 16)2 十 (16 一 21)2 十 (21 一 16)2 十 
(16—18)*] 一 科 一 5.89 


2) =asla6L 15—16)*+(18—15)* 二 (16 一 10)* 二 (13 一 20)* 十 (15 一 17)? 十 


(20 一 16)2 十 (11 一 18)2 十 (12 一 15)2 十 (14 一 18)? 十 (15 一 16)2 十 (17 一 23) 十 
(19 一 21)2 十 (23 一 18): 十 (15 一 10)2 十 (13 一 12)2 十 (10 一 17)2 十 (18 一 11)? 十 
(15 一 14)? 十 (11 一 19)* 十 (20 一 15)* 十 (15 一 18)* 十 (17 一 18)* 十 (18 一 21)? 十 


Go 一 20* 十 (16 一 16 十 21 一 189)5] 一 名 一 11. 88 
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X(3) 一 殉 而 [(15 一 15)? 十 (18 一 10)? 十 (13 一 17)? 十 (15 一 16)2 十 (10 一 18)2 十 


《1 一 21)2 十 (12 一 18)2 十 (14 一 16)2 十 (17 一 21)? 十 (19 一 18)2 十 (15 一 12)2 十 
(13 一 17)2 十 (18 一 14)2 十 (15 一 19)# 十 (16 一 15)2 十 (20 一 23)2 十 (15 一 18)2 十 


G7 一 208 十 (0 一 16)2 十 (16 一 18)5] 一 地 4 一 10. 85 
7 三 现 和 [015 一 10)* 十 (13 一 1672 十 (10 一 20* 十 (12 一 162 十 (17 一 18)2 十 


(15 一 17)* 十 (18 一 19)? 十 (16 一 23)? 十 (15 一 21)* 十 (10 一 18)*] 


4 答案 ; 
根据 公式 (10. 32)， 可 以 计算 : 
3=36X5. 89+26X 11, 88-+-20X 10. 85+10X16. 30, 





36 十 26 十 20 十 10 a 
二 6X2+26X4+20X6-+10X8_, 09 
Ey 36 十 26 十 20 十 10 , 
= 36X2426X4+20X6:+10X8; _ 173 83 
: 36 十 26 十 20 十 10 


Lu=36X(2—4.09)*+26X(4—4:09)*+20X (6 一 4.09) 十 
10X (8—4.09)*=383. 30 ' 

1 =36X(8—123. 83)*+26X (64—123. 83): 十 20X (216 一 123. 83)* 十 
10X(512 一 123. 83)*=2 252 733. 22 

Te 一 La 一 36X(2 一 4.09)X(8 一 123.83) 十 26X(4 一 4.09) X (64 一 123. 83)+20X (6—4.09)X 

(216—123. 83) 十 10X(8 一 4. 09)X(512 一 123. 83) 一 27 553. 39 

Lv 一 36X(2 一 4.09)X(5. 89 一 9. 79) 十 26X(4 一 4. 09)X(11.88 一 9.79) 十 20X(6 一 4. 09)X 
(10. 85—9. 79)+10X (8—4. 09) X (16. 30—9.79)=583. 56 和 

Lz,=36X(8—123. 83) X (5. 89 一 9.79) 十 26X(64 一 123. 83) X(11. 88 一 9.79) 十 20X(216 一 
123. 83) X (10. 85 一 9. 79) 十 10X(512 一 123. 83) X (16. 30 一 9. 79)=40 235. 24 

Ly, =36X(5. 89 一 9. 79)2: 十 26X (11. 88 一 9. 79)*+20X(10. 85 一 9. 79)’+10X (16. 30 一 9. 79) 

一 1 107. 40 
从 而 可 求 得 ， 
583. 56X2 252 733. 22 一 40 235. 24X27 553.39_ 








4 一 383. .30 又 2 252 733. 22—27 553. 39X 27 553. 39 一 ] 98 
b= 40 235. 24X 383. 30 一 583. 56X 27 553. 39 让 = 后 位 
365. 30X 252 733. 22 一 27 553. 39X27 553. 55 一 0 


四 一 9. 79 一 1. 98X4. 09 十 0.01X123. 83 一 2. 93 
由 于 久之 0， 锯 二 0， 包 二 0， 此 时 球状 模型 中 三 个 参数 C，C 和 a 分 别 为 : 
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因此 ， 球 状 模型 为 ， 
0 Ch=0) 
1) = 2.93+11. 10x ( 主 xaSi ) (0<h<8.41) 
14.03 (h>8.41) 
5. 答案 : 
根据 协 方差 与 变 差 函数 之 间 的 关系 以 及 第 4 题 求 得 的 变 差 函 数 ， 可 得 协 方差 函数 
14.03 (h=0) 


pd a 
c(h)= 1.10x[1 一 ( 计 x 友 1 一 证 xs)] (0<h<8, 41) 
0 (h>8.41) 
因此 ， 


cn 一 ca 一 ca 一 cy 一 14.03 


ce = = =cn =cu=14.03—X VE TZ) 





=14.03—X2Y5)=14.03 一 [2.93+11.10X ( 卫 x 一 十 Xx 生 2 


a 
= 


一 3. 11 
cu 一 cl 一品 一 14.03 一 X(V 和 到) 一 14.03 一 7(4) 


=14.03 一 [2.93 十 11.10X ( 羡 x 





cni=14.03—XVE)=14.03—7(2) 
各 Qe 3x-2 _1Lx-2 |]= 
=14.03: [293+1.10x( > xz) ]=7.321 
cn=cw = =14.03—X VETE)=14.03—X2V2) 


一 14.03 一 [2 93+HL.10X (x SE 二 六 区 全 )]=-se 


省 8.41 
i VT)=14.03—72 VI7) 
be we 3x2/T_ 1xCVI72 加 | )]= 
]4.03 一 | 2.93+11. 10x (总 x252 一 二 X 人 人 ) |=0.00 


cu =cs=14.03—X( VE TE)=14.03—X2 V13) 


一 14.03 一 2.9311.10X (名 x 一 目 x x )]=03 
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可 以 得 到 克 立 格 方程 组 : 
A (14.03 3 3.11 3.77 1001 17.21 /0.40 
3.11 14.03 5.66 0.00 1.00| |3.77| |oo6 
Ah|=| 3.11 5.66 14.03 0.33 1.00| |s.66|=|0.28 
Xn 3.77 0.00 0.33 14.03 1.00| |a.11| lo.09 
A 1.00 1.00 1.00 1.00 0.00 


1.00. 0.17. 


所 以 ，zo 点 的 克 立 格 估计 值 为 : 
用 =20X0.40 一 21X0.06 十 18X0.28 十 13X0.09 一 15.47 
克 立 格 估计 方差 为 ; 
ok =14.03—(0. 40X7. 21—0.06X3.77+0. 28X5. 66 十 0.09X3. 11) 一 0.17 一 8. 89 

6， 管 案 : 主 成 分 分 析 就 是 设法 将 原来 众多 的 具有 一 定 相 关 性 的 指标 ， 重 新 组 合成 一 组 新 的 
相互 无 关 的 综合 指标 来 代替 原来 的 指标 ， 而 保持 其 原 指标 所 提供 的 大 量 信息 。 

环境 空间 主 成 分 分 析 法 则 是 在 空间 数据 的 基础 上 ， 通 过 将 原始 空间 坐标 轴 旋 转 ， 将 相关 的 
多 变量 环境 空间 数据 转化 为 少数 几 个 不 相关 的 综合 指标 ， 实 现 用 较 少 的 综合 指标 最 大 限度 地 保 
留 原来 较 多 环境 变量 所 反映 的 信息 。 空 间 主 成 分 分 析 是 在 地 理 信息 系统 软件 ARC/INFO 的 
GRID 模块 支持 下 ， 利 用 该 模块 中 的 PRINCOMP 函数 ， 通 过 对 原始 空间 轴 的 旋转 完成 主 成 分 分 
析 。 在 提取 出 来 的 空间 主 成 分 的 基础 上 ， 可 以 进行 其 他 方面 的 工作 ， 比 如 区 域 生态 环境 综合 评 
价 、 区 域 生态 脆弱 性 评价 等 。 

7， 管 案 : 环境 空间 主 成 分 分 析 的 重要 步骤 为 : 

(GD 在 ARC/INFO 中 用 POLYGRID 命 令 将 环境 矢量 数据 转化 为 栅 格 数据 。 

(2) 按 照 一 定 的 标准 化 方法 对 转化 生成 的 栅 格 数据 进行 标准 化 处 理 。 

(3) 利 用 GRID 模块 中 的 MAKESTACK 命令 将 标准 化 处 理 后 的 指标 X 图 转化 为 一 个 综 
合 图 。 
(4) 利 用 GRID 模块 中 的 PRINCOMP 函数 ， 对 综合 图 进行 主 成 分 转换 ， 根 据 所 转换 的 空间 
主 成 分 特征 向 量 ， 利 用 公式 : 


& = /2 

计算 得 到 各 主 成 分 的 贡献 率 ， 再 根据 主 成 分 累计 贡献 率 大 小 ， 来 确定 主 成 分 数 。 

(5) 在 环境 综合 评价 中 ， 综 合 评价 指数 定义 为 M 个 主 成 分 的 加 权 和 ， 而 权重 用 每 个 主 成 分 
相对 应 的 贡献 率 来 表示 ， 即 ; 

E=aYi taYst.+toaY GQ=1, 2，…， MD) 

其 中 : E 为 环境 综合 评价 指数 ; Y; 为 第 了 个 主 成 分 w 为 第 7 主 成 分 对 应 的 贡献 率 。 

8 答案 : 实现 用 较 少 的 综合 指标 最 大 限度 地 保留 原来 较 多 环境 变量 所 反映 的 信息 。 

9 答案 : 

(DD 用 POLYGRID 命令 将 环境 矢量 数据 转化 为 栅 格 数据 。 

(2) 利 用 GRID 模块 中 的 MAKESTACK 命令 将 指标 图 转化 为 一 个 综合 图 。 

(3) 利 用 GRID 模 块 中 的 PRINCOMP 函数 ， 对 综合 图 进行 主 成 分 转换 。 


附 表 1 标准 正 态 分 布 表 


0.000 


a2) = 


0001 


0.002 


0.003 


0.004 


3 
5 du=P(Z<Z) 蔚 p 


0.005 





0.006 


0.007 


0 


Zp 


0.009 








0.000 000 
0.025 069 
0.050 154 
0.075 270 
0, 100 434 
0.12 661 
0,150 969 
0.176 374 
0. 201 893 
0.227 545 
0.253 347 
0.279 319 
0. 305 481 
0.331 853 
0.358 459 
0. 385 320 
0.412 463 
0.439 913 
0. 467 699 
0. 495 850 


0. 524 401 
0.553 385 
0.582 842 
0.612 813 
0.643 345 
0..674 490 
0.706 303 
0.738 847 
0.772 193 
0. 806 421 


0. 841 621 
0.877 896 
0.915 365 
0. 954 165 
0.994 458 
1.036 433 
1.080 319 


0.002 507 
0.027 576 
0.052 664 
0.077 784 
0.102 953 
0.128 188 
0.153 505 
0.178 921 
0, 204 452 


0.498 687 


0.527 279 
0.556 308 
0.585 815 
0.615 840 
0. 646 431 
0.677 640 
0.709 523 
0.742 144 
0.775 575 
0.809 896 
0.845 199 
0. 881 587 
0.919 183 
‘0. 958 124 
0. 998 576 
1.040 732 
1.084 823 


0.005 013 
0.030 084 
0.055 174 
0.080 298 
0. 105 474 
0.130 716 
0.156 042 
0. 181 468 
0.207 013 
0.232 693 
0.258 527 
0. 284 536 
0, 310 738 
0.337 155 
0.363 810 
0. 390 786 
0.417 928 
0.445 443 
0.473 299 
0.501 527 
0.530 161 
0.559 237 
0.588 793 
0.618 873 
0.649 524 
0..680 797 
以 712 751 
0.745 450 
0.778 966 
0.813 380 
0.848 787 
0.885 290 
0.923014 
0.962 099 
1.002 712 
1.045 050 
1.089 349 


0.007 520 
0.032 592 
0.057 684 
0.082 813 
0.107 995 


0.133 245 
0.158 580 
0.184 017 
0. 209 574 
0.235 269 


0.261 120 
0.287 147 
0.313 369 
0.339 809 
0. 366 489 
0. 393 433 
0. 420 665 
0.448 212 
0.476 104 
0.504 372 
0.533 049 
0.562 175 
0.591 777 
0.621 912 


0. 816 875 
0.852 386 
0.889 006 
0.926 859 
0. 966 088 
1.006 864 
1.049 387 
1.097 897 


0.010 027 
0.035 100 
0.060 195 
0.085 329 
0.110 516 
0.135 774 
0.161 119 
0. 186 567 
0.212 137 
0.237 847 
0.263714 
0.289 760 
0.316 003 
0.342 766 
0.369 171 
0.396 142 
0.423 405 
0.450 985 
0.478 914 
0.507 221 
0.535 940 
0.655 108 
0.594 766 
0.624 956 
0.655 727 
0.687 131 
0.719 229 
0.752 085 
0.785 774 
0.820 379 


0. 855 996 
0.892 733 
0.930717 
0.970 093 
1.011 034 
1.053 744 
1.098 468 


0.012 533 
0.037 608 
0.062 707 
0.087 845 
0.113 039 
0. 138 304 
0. 163 658 
0.189 118 
0.214 702 
0.240 426 


0.266 311 
0.292 375 
0.318 639 
0.345 126 
0.371 856 
0. 398 855 
0.426 148 
0.453 762 
0.481 727 
0.510073 
0.538 836 
0.568 051 
0.597 760 
0. 628 006 
0.658 838 
0.690 309 
0.722 479 
0.755 415 
0.789 192 
0. 823 894 


0.859 617 
0. 896 473 
0.934 589 
0.974 114 
1.015 222 
1.058 122 
1. 103 063 


0.015 040 
0.040117 
0.065 219 
0.090 361 
0.115 562 
0:140 835 
0.166 199 
0.191 671 
0.217 267 
0.243 007 


0, 268 909 
0. 294 992 
0.321 278 
0.347 787 
0.374 543 
0.401 571 
0.428 895 
0.456 542 
0.484 544 
0.512 930 
0.541 737 
0.570 999 
0.600 760 
0.631 062 
0.661 955 
0.693 493 
0.725 737 
0.758 754 
0.792 619 
0.827 和 8 


0.863 250 
0.900 226 
0.938 476 
0.978 150 
1.019 428 
1.062 519 
1.107 680 


0.017 547 
0.042 626 
0.067 731 
0.092 879 
0.118 085 


0.143 367 
0. 168 741 
0, 194 225 
0.219 835 
0.245 590 


0.271 508 
0.297 611 
0. 323 918 
0. 350 451 
0.377 234 


0.404 289 
0.431 644 
0.459 326 
0. 487 365 
0.515 792 


0.544 642 
0.573 952 
0.603 765 
0.634 124 
0..665 079 
0. 696 685 
0.729 003 
0.762 101 
0.796 055 
0.830 953 


0.866 894 
0.903 991 
0.942 376 
0. 982 203 
1.023 651 


1.066 938 
1.112 321 


0.020 054 
0.045 135 
0.070 243 
0.095 396 
0.120 610 
0.145 900 
0.171 285 
0. 196 780 
0, 222 403 
0.248 174 


0.274 110 
0.300 232 
0, 326 561 
0.353 118 
0, 379 926 
0.407 011 
0.434 397 
0.462 113 
0. 490 189 
0. 518 657 
0.547 551 
0.576 910 
0. 606 775 
0.637 192 
0.668 209 
0.699 884 
0.732 276 
0. 765 456 
0.799 501 
0. 834 499 


0.879 550 
0.907 770 
0.946 291 
0.986 271 
1.027 893 
1.071 377 
1.116 987 


0.022 562 
0.047 644 
和 .072 756 
0..097 915 
0.123 135 
0, 148 434 
0.173 829 
0. 199 336 
0.224 973 
0. 250 760 
0,276 714 
0. 302 855 
0, 329 206 
0, 355 787 
0. 382 622 
0. 409 735 
0.437 154 
0. 464 904 
0.493 018 
0.521 527 
0, 550 466 
0.579 873 
0.609 792 
0. 640 266 
0.671 346 
0.703 089 
0.735 558 
0.768 820 
0, 802 956 
0.838 055 


0,874 217 
0.911 561 
0.950 221 
0. 990 356 
1.032 154 
1.075 837 
1.121 677 
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续 表 


0.000 0.001 0.002 0.003 0.006 0.007 0.008 0.009 




















Q.87 |1126391 1.131131 1.135 896 1.140687 1.145 505 1.155 221 1.160 120 1,165047 1.170 002 
0.88 |1.174 987 1.180 001 1.185 044 1.190 118 I.195 223 1.205 527 1.210727 1.215960 1.221 227 
0.89 |1 226 528 1.231 864 1.237 235 1,242 641 1.248 1.259 084 1.264 641 1,270238 1,275 874 





1,281 552 1.287 271 1.293 032 1. 298 837 
1.340 755 1.346 939 1.353 174 1.359 463 
1.405 072 1.411 830 1.418 654 1.425 544 
5 791 1.483 280 1.490 853 1.498 513 
1,554 774 1.563 224 1.571 787 1.580 467 
1,644 854 1.654 628 1.664 563 1.674 665 
1.750 686 1.762 410 1.774 382 1.786 613 
1, 880 794 1.895 698 1,91] 036 1.926 837 
2.053 749 2.074 855 2.096 927 2.120072 
2.326 348 2.365 618 2.408 916 2.457 


注 :本 表 对 于 下 侧 概率 给 出 正 态 分 布 的 分 位 数 Z。。 
例 : 对 于 pp=0.95,Zo 一 1.644 854。 


1. 

L 

1 

1 1.316 519 1.322 505 1.328 539 1,334 622 
1.372 204 1.378 659 1.385 172 1.391 744 1.398 377 
1.439 531 1.446 632 1.453 806 1.461 056 1.468 384 
1.514 102 1,522036 1.530 068 1,538199 1,546 433 
1.598 193 1.607 248 1.616 436 1.625 763 1,635 234 
1.695 398 1.706 043 1:716 886 1.727 934 1.739 198 
1.811 911 1.825 007 1.838 424 1.852 180 1.866 296 
1.959 964 1.977 368 1.995 393 2.014 091 2.033 520 
1 2.170 090 2.197 286 2.226 212 2.257 129 2.290 368 
2.575 2.652070 2.747 7?8] 2.878 162 3.090 23 





Dd nd md lm nl ln 
未 入 二 二 汪汪 二 















附 表 2 相关 系数 检验 表 















































附 表 3 x ?分 布 临 界 值 表 

















例如 :自由 度 "一 20，P(X 二 34. 17) 一 0.025。 

n 995 a=0.990 a=0.975 a=0.950 a=0.050 a=0.025 a=0.010 a=0.005 
1 .000 039 3 0. 000 157 0.000 982 0.003 93 3.841 5.024 6. 635 7.879 
2 0.010 ”0.020 1 0.050 6 0;103 5. 991 7.378 9.210 10. 579 
3 0.072 0.115 0,216 0.352 7.815 9.348 11.345 12. 838 
4 0.207 0.297 0.484 0.711 9., 488 11.143 13. 277 14. 860 
5 0.412 0.554 0.831 1.145 11.070 12. 832 15. 086 16. 750 
6| 0.676 0872 -1.237 1.635 12.592 14.449 16.812 18.548 
6 0. 989 1.239 1. 690 2.167 14. 067 16.013 18. 475 20, 278 
8| 1.344 1.646 -2.180 2.733 15:507 17.535 20.090 21.955 
9| 1735 2.088 2.700 3. 325 16.919 19.023 21.666 23.589 
10| 2.156 2.558 3.247 3. 940 18.307 20.483 23,209 25.188 
11| 2.603 3.053 3.186 4.575 19.675 21.920 24.725 26.757 
12 3.074 3.571 4.404 5. 226 21.026 23. 337 26.217 28. 300 
13| 3.565 4.107 5.009 5. 892 22.362 24.736 27.688 29.819 
14| 4.075 4.660 5.629 6.571 23.685 26.119 29,141 31.319 
15| 4601 5.229 6.262 7.261 24.996 27.488 。 30.578 32.801 
16| 5.142 5.812 6.908 7.962 26.296 28.845 32.000 34.267 
17| 5.697 6.408 7.564 8.672 27.587 30.191 33.409 35.718 
18 6.265 7.015 8.231 9. 390 28. 869 31. 526 34. 805 37. 156 
19 6.844 7.633 8. 907 10.117 30. 144 32. 852 36. 191 38. 582 
20| 7.434 8.260 9.591 10.851 31.410 34.170 37.566 。 39.997 
21| 8.034 8.897 10.283 11.591 32.671 35.479 38.932 41.401 
22| 8.643 9.542 10.982 12.338 33.924 36.781 40.289 42.796 
23 9.260 10.196 11.689 13.091 35. 172 38.076 41. 638 44. 181 
24 9.886 10.856 12. 401 13. 848 36.415 39. 364 42. 980 45.558 
25 | 10.520 11.524 13. 120 14.611 37.652 40. 646 44.314 46. 928 
26| 11.160 12.198 13.844 15. 379 38. 885 41. 923 45. 642 48. 290 
27| 11.808 12.879 14. 573 16. 151 40. 113 43. 194 46. 963 49. 645 
28| 12.461 13.565 15. 308 16. 928 41.337 44. 461 48.278 50. 993 
29 | 13.121 14.256 16. 047 17. 708 42. 557 45.722 49. 588 52. 336 
30| 13.787 14.953 16. 791 18. 493 43.773 46. 979 50. 892 53. 672 





306 


环境 统计 分 析 

















附 表 4 t 分 布 临界 值 表 
例如 :自由 度 "一 20，P(t>>1.725) 一 0. 05。 

25 0.15 | 0.10 | 0.05 | 0.025 | 0.01 | 0.005 |0.0005 

» 0.100 | 1.376 | 1.963 | 3.076 | 6.314 | 12.706 | 31.821 | 63.657 | 636. 619 
2 0.816 | 1.061 | 1.386 | 1.886 | 2.920 | 4.303 | 6.965 | 9.925 | 31.598 
3 0.765 | 0.978 | 1.250 | 1.638 | 2.353 | 3.182 | 4.541 | 5.841 | 12.941 
4 0.741 | 0.941 | 1.190 | 1.533 | 2.132 | 2.776| 3.747| 4.604 | 8.610 
5 0.727 | 0.920 | 1.156 | 1.476 | 2.015 | 2.571| 3.365 | 4.032| 6.859 
6 0.718 | 0.906 | 1.134 | 1.440 | 1.943 | 2.447| 3.143| 3.707| 5.959 
芝 0.711 | 0.896 | 1.119 | 1.415 | 1.895 | 2.365| 2.998 | 3.499| 5.405 
8 0.706 | 0.889 | 1.108 | 1.397 | 1.860 | 2.306| 2.896 | 3.355| 5.041 
9 0.703 | 0.883 | 1.100 | 1.383 | 1.833 | 2.262| 2.821| 3.250| 4.781 
10 | 0.700 | 0.879 | 1.093 | 1.372 | 1.812 | 2.228| 2.764 | 3.169| 4.587 
11 | 0.697 | 0.876 | 1.088 | 1.363 | 1.796 | 2.201| 2.718 | 3.106 | 4.437 
12 | 0.695 | 0.873 | 1.083 | 1.356 | 1.782 | 2.179| 2.681| 3.055| 4.318 
13 | 0.694 | 0.870 | 1.079 | 1.350 | 1.771 | 2.160| 2.650| 3.012 | 4,.221 
14 | 0.692 | 0.868 | 1.076 | 1.345 | 1.761 | 2.145| 2.624| 2.977| 4.140 
15 | 0.691 | 0.866 | 1.074 | 1.341 | 1.753 | 2.131| 2.602| 2.947| 4.073 
16 | 0.690 | 0.865 | 1.071 | 1.337 | 1.746 | 2.120| 2.583| 2.921| 4.015 
17 | 0.689 | 0.863 | 1.069 | 1.333 | 1.740 | 2.110| 2.567| 2.898 | 3.965 
18 | 0.688 | 0.862 | 1.067 | 1.330 | 1.734 | 2.101| 2.552| 2.878 | 3.922 
19 | 0.688 | 0.861 | 1.066 | 1.328 | 1.729 | 2.093| 2.539| 2.861 | 3.883 
20 | 0.687 | 0.860 | 1.064 | 1.325 | 1.725 | 2.086 | 2.528| 2.845| 3.850 
21 | 0.686 | 0.859 | 1.063 | 1.323 | 1.721 | 2.080| 2.518| 2.831| 3.819 
22 | 0.686 | 0.858 | 1.061 | 1.321 | 1.717 | 2.074| 2.508| 2.819 | 3.792 
23 | 0.685 | 0.858 | 1.060 | 1.319 | 1.714 | 2.069| 2.500| 2.807| 3.767 
24 | 0.685 | 0.857 | 1.059 | 1.318 | 1.711 | 2.064| 2.492| 2.397 | 3.745 
25 | 0.684 | 0.856 | 1.058 | 1.316 | 1.708 | 2.060| 2.485 | 2.787 | 3.725 
26 | o.684 | 0.856 | 1.058 | 1.315 | 1.706 | 2.056| 2.479| 2.779| 3.707 
27 | 0.684 | 0.855 | 1.057 | 1.314 | 1.703 | 2.052 | 2.473| 2.771| 3.690 
28 | 0.683 | 0.855 | 1.056 | 1.313 | 1.701 | 2.048 | 2.467| 2.733 | 3.674 
29 | 0.683 | 0.854 | 1.055 | 1.311 | 1.699 | 2.045| 2.462| 2.756 | 3.659 
30 | 0.683 | 0.854 | 1.055 | 1.310 | 1.697 | 2.042| 2.457| 2.750 | 3.646 
40 | 0.681 | 0.851 | 1.050 | 1.303 | 1.684 | 2.021| 2.423| 2.704 | 3.551 
60 | 0.679 | 0.848 | 1.046 | 1.296 | 1.671 | 2.000| 2.390| 2.660 | 3.460 
120 | 0.677 | 0.845 | 1.041 | 1.289 | 1.658 | 1.980 | 2.358 | 2.617| 3.373 
oo | 0.674 | 0.842 | 1.036 | 1.282 | 1.645 | 1.960| 2.326| 2.576| 3.291 



































附 表 5 下 分 布 临界 值 表 


例如 ; 自由 度 芒 = 二 10, ns 二 29，P(F>2.18)==0.05,，P(F>3.00)==0.01。 


注 : me 下 面 的 数字 是 1% 的 显著 性 水 平 ，n: 上 面 的 数字 是 5% 的 显著 性 水 平 。 














m 分 子 的 自由 度 
ne 3 4 5 6 
1 216 | 225 | 230 | 234 | 237 
5 403|5 625|5 764|5 859|5 928 
[4 . 00|19. 16|19. 25|19. 30|19. 33|19. 36|19. 
. 00|99. 17|99. 25|99. 30|99. 33|99. 34|99. 和 ls » 
3 a 9.28| 9.12| 9.01| 8.94| 8.88| 8. . a , 
,82|29. 46|28. 71|28. 24|27. 91|27. 3 » 交 ， 
4 6.59| 6.39| 6.26| 6.16| 6. 3 a 9 
.01|16. 69|15. 98|15. 52|15. 21|14. . 了 本 本 有 
5 5. 5.41| 5.19| 5.05| 4.95| 4. 4. 局 四 四 , 
. 27|12. 06|11. 39|10. 97|10. 67|10. a . 
6 5. 4.76| 4.53| 4.39| 4.28| 4.21| 4.15| 4.10| 4.06| 4.03| 4.00 
月 9.78| 9.15| 8.75| 8.47| 8.26| 8.10| 7.98| 7.87| 7.79| 7.72 
7 4 4.35| 4.12| 3.97| 3.87| 3.79| 3.73| 3.68| 3.63| 3.60| 3,57 
9. 8.45| 7.85| 7.46| 7.19| 7.00| 6.84| 6.71| 6.62| 6.54| 6.47 
8 4. 4.07| 3.84| 3.69| 3.58| 3.50| 3.44| 3.39| 3.34| 3.31| 3.28 
8. 7.59| 7.01| 6.63| 6.37| 6.19| 6.03| 5.91| 5.82| 5.74| 5.67 
分 9 4. 3.86| 3.63| 3.48| 3.37| 3.29| 3.23| 3.18| 3.13| 3.10| 3.07 
8. 6.99| 6.42| 6.06| 5.80| 5.62| 5.47| 5.35| 5.26| 5.18| 5.11 
母 | 10 4. 3.71| 3.48| 3.33| 3.22| 3.14| 3.07| 3.02| 2.97| 2.94| 2.91 
7. 6.55| 5.99| 5.64| 5.39| 5.21| 5.06| 4.95| 4.85| 4.78| 4.71 
的 11 3. 3.59| 3.36| 3.20| 3.09| 3.01| 2.95| 2.90| 2.86| 2.82| 2.79 
7. 6.22| 5.67| 5.32| 5.07| 4.88| 4.74| 4.63| 4.54| 4.46| 4.40 
自 12 3. 3.49| 3.26| 3.11| 3.00| 2.92| 2.85| 2.80| 2.76| 2.72| 2.69 
5.95| 5.41| 5.06| 4.82| 4.65| 4.50| 4.39| 4.30| 4.22| 4.16 
由 13 3. 3.41| 3.18| 3.02| 2.92| 2.84| 2.77| 2.72| 2.67| 2.63| 2.60 
6. 5.74| 5.20| 4.86| 4.62| 4.44| 4.30| 4.19| 4.10| 4.02| 3.96 
度 14 3. 3.34| 3.11| 2.96| 2.85| 2.77| 2.70| 2.65| 2.60| 2.56| 2.53 
6. 5.56| 5.03| 4.69| 4.46| 4.28| 4.14| 4.03| 3.94| 3.86| 3.80 
15 3. 3.29| 3.06| 2.90| 2.79| 2.70| 2.64| 2.59| 2.55| 2.51| 2.48 
6. 5.42| 4.89| 4.56| 4.32| 4.14| 4.00| 3.89| 3.80| 3.73| 3.67 
16 3. 3.24| 3.01| 2.85| 2.74| 2.66| 2.59| 2.54| 2.49| 2.45| 2.42 
6. 5. 29| 4.77| 4.44| 4.20| 4.03| 3.89| 3.78| 3.69| 3.61| 3.55 
17 3 3.20| 2.96| 2.81| 2.70| 2.62| 2.55| 2.50| 2.45| 2.41| 2.38 
6. 5.18| 4.67| 4.34| 4.10| 3.93| 3.79| 3.68| 3.59| 3.52| 3.45 
18 3. 3.16| 2.93| 2.77| 2.66| 2.58| 2.51| 2.46| 2.41| 2.37| 2.34 
6. 5.09| 4.58| 4.25| 4.01| 3.85| 3.71| 3.60| 3.51| 3.44| 3.37 
好 3. 3.13| 2.90| 2.74| 2.63| 2.55| 2.48| 2.43| 2.38| 2.34| 2.31 
5. 5.01| 4.50| 4.17| 3.94| 3.77| 3.63| 3.52| 3.43| 3.36| 3.30 
20 3. 3.10| 2.87| 2.71| 2.60| 2.52| 2.45| 2.40| 2.35| 2.31| 2.28 
5. 4.94| 4.43| 4.10| 3.87| 3.71| 3.56| 3.45| 3.37| 3.30| 3.23 
21 3. 3.07| 2.84| 2.68| 2.57| 2.49| 2.42| 2.37| 2.32| 2.23| 2.25 
5. 4.87| 4.37| 4.04| 3.81| 3.65| 3.51| 3.40| 3.31| 3.24| 3.17 
22 3. 3.05| 2.82| 2.66| 2.55| 2.47| 2.40| 2.35| 2.30| 2.26| 2.23 
5.72| 4.82| 4.31| 3.99| 3.76| 3.59| 3.45| 3.35| 3.26| 3.18| 3.12 
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续 表 


























分 于 的 自由 : 谋 
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上 和 生生 生生 下 人 下 二 二 





中 
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ns 1 7 10 11 12 
3.89 | 3. 2.65 | 2.41 | 2.26 | 2. 2.05 1. 1. 1 上 
分 6.76 | 4. 3.88 | 3.41 | 3.11 | 2. 2.73 2 2 2 2. 
母 3.86 | 3. 2.62 | 2.39 | 2.23 | 2. 2.03 1. 2 1. 1 
的 6.70 | 4. 3.83 | 3. 36 | 3.06 | 2. 2.69 2 入 2 2. 
自 3.85 | 3.00 | 2.61 | 2. 38 | 2. 22 | 2. 10 | 2.02 1.89 | 1.84 | 1.80 | 1. 
由 6.66 | 4.62 | 3. 80 | 3. 34 | 3. 04 | 2. 82 | 2. 66 2.43|2.34 | 2.26 | 2. 
度 3.84 | 2.99 | 2. 60 | 2. 37 | 2. 21 | 2.09 | 2.01 1.88 | 1.83 | 1:79 | 1. 
6.64|4.60|3.78|3.32|3.02|2.8012.64 2.41| 2.,32| 2.24| 2. 
区 到 自 
14 30 100 | 200 | 500 | = 
245 250 253 | 254 | 254 | 254 
6 258 6-334|6 352|6 361| 6 366 
19.46 19. 49|19. 49| 19. 50|19， 
99.47 99. 49|99. 49|99. 50|99. 
8.62 8. 56| 8.54| 8.54| 8. 
26. 50 26. 23| 26. 18|26. 14|26. 
5.74 5.66| 5.65| 5.64| 5. 
13. 83 13. 57|13. 52|13. 48|13. 


和 

































































续 表 
m 分 子 的 自由 度 
nn 14 16 20 24 30 40 50 75 100 | 200 | 500 | ce 

20 |2.23|2.18|2.12|2.08|2.04|1.99|1.96|1.92|1.90|1.87|1.85|1.84 
3.13 |3.05 | 2.94|2.86 |2.77 |2.69 |2.63|2.56 |2.53|2.47 |2.44|2.42 
21 |2.20|2.15|2.09|2.05|2.00|1.96|1.93|1.89|1.87|1.84|1.82|1.81 
3.07 | 2.99 | 2.88 | 2.80 | 2.72 | 2.63 | 2.58 | 2.51 |2.47 |2.42 |2.38 |2.36 
22 |2.18|2.13|2.07|2.03|1.98|1.93|1.91|1.87|1.84|1.81|1.80|1.78 
3.02 | 2.94 | 2.83 | 2.75 | 2.67 | 2.58 | 2.53 | 2.46 | 2.42 | 2.37 | 2.33 | 2.31 
23 |2.14|2.10|2.04|2.00|1.96|1.91|1.88|1.84|1.82|1.79|1.77|1.76 
2.97 | 2.89 | 2.78 | 2.79 | 2.62 | 2.53 | 2.48 | 2.41 | 2.37 | 2.32 | 2.28 | 2.26 
24 |2.13|2.09|2.02|1.98|1.94|1.89|1.86|1.82|1.80|1.76|1.74|1.73 

2. 93 2.66 |2.58|2.49|2.44|2.36|2.33|2.27|2. 天 
25 |2.11|2. 1.96 | 1.92|1.87|1.84|1.80|1.77|1.74|1.72|1.71 
2.89 | 2. 2.62 | 2.54 | 2.45 | 2.40 |2.32|2.29|2.23|2.19|2.17 
26 | 2.10|2. 1.95 | 1.90|1.85|1.82|1.78|1.76|1.72|1.70|1.69 
2.86 | 2. 2.58 | 2.50 | 2.41 | 2.36 | 2.28 | 2.25|2.19|2.15|2,13 
27 | 2.08 | 2. 1.93| 1.88|1.84|1.80|1.76|1.74|1.71|1.68|1.67 
2.83 | 2. 2.55 | 2.47 | 2.38 | 2. 33 | 2.25 | 2.21 | 2.16 | 2.12|2.10 
28 |2.06 |2. 1.91|1.87|1.81|1.78|1.75|1.72|1.69|1.67|1.65 
2.80 | 2. 2.52 | 2.44 | 2.35| 2.30 | 2.22 | 2.18 | 2.13 | 2.09 | 2.06 
29 |2.05 |2. 1.90 |1.85|1.80|1.77|1.73|1.71|1.68|1.65|1.64 
2.77 | 名 2.49 | 2.41 | 2. 32 | 2.27 | 2. 19 |2.15|2.10|2.06|2.03 
分 | 30 2.04 | 1. 1.89|1.84|1.79|1.76|1.72|1.69|1.66|1.64|1.62 
2.74 | 2. 2.47 | 2.38 | 2.29 | 2. 24 | 2.16 | 2. 13 | 2.07 | 2.03 | 2.01 
母 | 32 |2.02|1. 1.86 |1.82|1.76|1.74|1.69|1.67|1.64|1.61|1.59 
2.70 | 2. 2.42 |2.34 | 2.25 | 2.20 | 2. 12 | 2.08 | 2.02 | 1.98 | 1.96 
的 34 |2.00|1. 1.84 |1.80|1.74|1.71|1.67|1.64|1.61|1.59|1.57 
2. 66 | 2. 2.38 | 2.30 | 2.21|2.15|2.08|2.04|1.98|1.94|1.91 
自 36 |1.98|1. 1.82|1.78|1.72|1.69|1.65|1.62|1.59|1.56|1.55 
2. 62 | 3. 2.35 | 2.26 | 2.17 | 2. 12 |'2.04 | 2.00 | 1.94 | 1.90 |1.87 

由 38 |1.96|1. 1.80|1.76|1.71|1.67|1.63|1.60|1.57|1. 次 
2.59 | .2.5 2.32 | 2.22 | 2.14|2.08|2.00|1.97|1.90 |1.86 |1.84 
度 | 40 1.95 | 1 1.79 |1.74 |1.69 |1.66|1.61|1.59|1.55|1.53|1.51 
2.56 | 2. 2.29 | 2.20|2.11|2.05|1.97|1.94|1.88|1.84 |1.81 
42 | 1.94 | 1. 1.78 | 1.73 | 1.68 | 1.64 | 1.60 | 1.57 | 1.54 | 1.51 | 1.49 
2.54 | 2. 2.26 |2.17|2.08|2.02|1.94|1.91|1.85 |1.80|1.78 
44 |1.92 | 1. 1.76 |1.72 |1.66 |1.63|1.58|1.56|1.52|1.50|1.48 
2.52 | 2. 2.24 | 2.15 | 2.06 | 2.00 |1.92|1.88|1.82|1.78|1.75 
46 | 1.91 | 1. 1.75 | 1.71 | 1.65 | 1.62 |1.57|1.54|1.51|1.48|1.46 
2.50 | 2. 2.22|2.13|2.04|1.98|1.90|1.86|1.80|1.76|1.72 
48 |1.90|1. 1.74 |1.70|1.64|1.61|1.56|1.53|1.50|1.47|1.45 
2.48 | 2. 2.20|2.11|2.02|1.96|1.88|1.84|1.78|1.73|1.70 
50 |1.90|1. 1.74 |1.69|1.63|1.60|1.55|1.52|1.48|1.46|1.44 
2.46 | 2. 2.18|2.10|2.00|1.94|1.86|1.82|1.76|1.71|1.68 
55 |1.88|1. 1.72|1.67|1.61|1.58|1.52|1.50|1.46|1.43|1.41 
2.43 | 2. 2.15 | 2.06 |1.96|1.90|1.82|1.78|1.71|1.66 |1.64 
60 |1.86 |1. 1.70 | 1.65| 1.59 |1.56 |1.50|1.48|1.44|1.41|1.39 
2.40 | 2. 2.12|2.03|1.93|1.87|1.79|1.74|1.68|1.63|1.60 
65 |1.85|1. 1.68|1.63|1.57|1.54|1.49|1.46|1.42|1.39|1.37 
2.37 | 2. 2.09 | 2.00 |1.90|1.84|1.76|1.71|1.64 |1.60 |1.56 
70 |1.84| 1. 1.67 | 1.62 | 1.56 | 1.53 | 1.47 | 1.45 | 1.40 |1.37|1.35 
2.35 | 2. 2.07 |1.98 |1.88 |1.82|1.74|1.69 |1.62 |1.56|1.53 
80 |1.82|1. 1.65 | 1.60|1.54|1.51|1.45|1.42|1.38|1.35|1.32 
2.3212. 2.03| 1.94|1.84|1.78|1.70|1.65|1.57|1.52|1.49 












































